[发明专利]新词汇的发现方法及装置有效
申请号: | 201510918931.4 | 申请日: | 2015-12-11 |
公开(公告)号: | CN105512109B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 顾俊;刘鹏 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种新词汇的发现方法及装置。该方法包括:获取文本文档;将所述文本文档分割成片段;以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元词及扩展得到的词语以词典为参考进行过滤,得到候选词汇;计算所述候选词汇的内密度和外密度;当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时,确定所述候选词汇为新词汇。本发明不需要利用词典对文本文档进行分词,而是利用词典对片段中的词语进行过滤得到候选词汇,然后再根据内密度和外密度对候选词汇进行过滤,最终得到新词汇,避开了词典的局限性,提高了发现的新词汇的准确性。 | ||
搜索关键词: | 新词汇 发现 方法 装置 | ||
【主权项】:
1.一种新词汇的发现方法,其特征在于,所述方法包括:获取文本文档;将所述文本文档分割成片段;以所述片段中的二元词为基础,对所述二元词进行扩展,并对所述二元词及扩展得到的词语以词典为参考进行过滤,得到候选词汇;计算所述候选词汇的内密度和外密度;当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时,确定所述候选词汇为新词汇;当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时,确定所述候选词汇为新词汇包括:当所述内密度和外密度分别大于预设内密度阈值和预设外密度阈值时,分别计算相邻的高元候选词汇和低元候选词汇的内密度差和外密度差;当所述内密度差的绝对值小于预设内密度差阈值且所述外密度差的绝对值小于预设外密度差阈值时,确定所述高元候选词汇为新词汇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510918931.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种反馈用户需求的方法及装置
- 下一篇:一种天线产品性能数据获取方法及系统