[发明专利]一种从文档集中抽取热词短语的方法和装置有效
申请号: | 201410265383.5 | 申请日: | 2014-06-13 |
公开(公告)号: | CN104077274B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从文档集中抽取热词短语的方法和装置,其中分词单元对所述文档集中的每个分句进行分词;判断单元为针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;热词短语抽取单元为基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出。与现有技术相比,本发明提供的方法和装置可以更准确地从各种语料库中抽取热词短语。 | ||
搜索关键词: | 一种 文档 集中 抽取 短语 方法 装置 | ||
【主权项】:
一种从文档集中抽取热词短语的方法,包括:对所述文档集中的每个分句进行分词;针对每个分句中所有K个以下连续词组成的短语,判断短语边界明显度和/或短语中各词之间关系的紧密程度,其中K是正整数,边界明显度指示短语与短语左右的词的搭配自由度;基于短语边界明显度和/或短语中各词之间关系的紧密程度的判断结果,从所述K个以下连续词组成的短语中至少抽取一部分短语作为热词短语输出;其中,判断短语边界明显度包括:通过计算所述短语的左、右信息熵并与相应阈值比较,判断短语边界明显度;或通过获取在所述文档集中所述短语左、右侧出现的词的集合,计算集合中各词在所述文档集中与所述短语相邻出现的次数与所述短语在所述文档集中出现的次数的比值的方差,并与相应阈值比较,判断短语边界明显度;其中,通过以下公式计算所述短语的左、右信息熵:所述短语的左信息熵的计算如下:或其中,w表示所述短语,ai表示所述文档集中紧挨着短语w的左侧词集合{a1,a2,a3,…,as}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,m>1,C(ai,w)表示紧挨着短语w的左边出现在所述文档集中的次数,LCE(w)表示短语w的左信息熵;所述短语的右信息熵的计算如下:或其中,w表示所述短语,bi表示所述文档集中紧挨着短语w的右侧词集合{b1,b2,b3,…,bp}中的任一词,N(w)表示短语w在所述文档集中出现的总次数,n>1,C(w,bi)表示词bi紧挨着短语w的右边出现在所述文档集中的次数,RCE(w)表示短语w的右信息熵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410265383.5/,转载请声明来源钻瓜专利网。
- 上一篇:用于呈现数据的方法和装置
- 下一篇:一种实现易失性存储器备份的装置