[发明专利]一种左右递归新词发现方法在审
申请号: | 201611152464.X | 申请日: | 2016-11-30 |
公开(公告)号: | CN106649666A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 尹云飞;刘欢;曾亚飞 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司;重庆大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 左右 递归 新词 发现 方法 | ||
技术领域
本发明属于搜索引擎技术领域,来源于词法分析和快速检索的构建和使用实践。本发明既可以用于通用商业数据的高效分类和检索又可以作为公安、军事等特殊领域的专业分检。
背景技术
随着各个行业信息化的快速发展,当今各个垂直领域的数据越来越多,而其中有很多数据是无用的,不需要特殊处理。
如何快速、高效从垂直领域内的海量数据中检索、智能挖掘出有用的信息成为现在智能搜索引擎发展的一大难题。随着搜索引擎技术的发展,出现了各种各样的搜索引擎技术,但绝大部分搜索引擎技术针对特殊领域中的特殊术语和特殊表达方式不能进行有效的检索和智能推荐,所以现有的搜索引擎技术不能满足当前行业的需求,这就促进了分布式智能搜索引擎的发展。
针对垂直领域往往会出现很多特定的专业词汇以及新词汇,对于这些词汇,现有词典中是没有的,如果语料中包含了这些词汇,那么词法分析逻辑处理模块处理时将会造成一定的误差。所以需要针对这些专业词汇、新词汇进行自动化的搜集功能,并把这些词汇加入到词库中构建出该垂直领域的特殊词库,这样就能提高搜索引擎中词法分析逻辑处理模块的处理效率、精度,从而提高搜索引擎的搜索效率、精确度。
一般而言,当数据进入分布式搜索引擎时,同时也进入新词词库构建流程,对输入语料数据进行新词发现,如果发现的新词没有在现有词库中出现过,就把这个新词加入到新词词库。
现有的新词发现方法一般是采用基于规则的新词发现或者基于统计的新词发现。最早采用的新词发现方法都是采用的基于规则的新词发现方法,它通过研究新词的内部构造规则和外部构造规则来形成对应的规则库,以此规则库为准则来发现新词。而基于统计的新词发现方法是通过找到长度不大于n的所有词汇,对这些词汇进行词频、互信息的计算,如果计算指标满足预先设定的指标阈值就作为新词。
在新词发现方法中,前述两种方法都各有利弊。基于规则的方法,新词发现的准确度、效率都相对较高,但在规则库的创建上需要耗费大量的人力去进行规则提取,随着语言的发展,规则库需要不断的更新,因此该方法不是自适应的,扩展性不好;基于统计的方法,新词发现的过程是自动化的,但这种方式会发现很多词频较高的垃圾串,而且不能发现长度非常长的新词,例如,少数民族人名、音译名。
通过对各种新词发现技术的调研,发现当前大部分的新词发现方法都是基于窗口的模式去发现新词,这种模式使得长度较长的新词不能被发现。我们发明一种基于左右递归的新词发现方法,在进行新词发现时,大大提高了新词发现的准确度。利用这种新词发现方法可以很方便地建立高准确度的自适应垂直领域词典,并且随着数据量的增加,词典越来越健全。针对特殊的领域,可以大幅度提高索引数据时分词的准确度。
通过一种左右递归新词发现方法能够有效解决现有方法面临的上述问题。
发明内容
本发明公开了一种左右递归新词发现方法。一种左右递归新词发现方法由语料预处理、位置集合计算、集合遍历、收纳性判断、词频计算、左递归、右递归、合并八个步骤组成。
下面具体设计这种左右递归新词发现方法:
一种左右递归新词发现方法按照三个指标评定一个新词,即词频、互信息、信息熵。
(1)词频
统计词汇在语料中出现的频率,出现的频率越高就越可能是新词,当词频达到某个阈值就认为可能成为一个新词,计算公式如下:
其中,N(X)表示字符串X出现的次数;N表示语料的总字数。
(2)互信息
互信息是最早出现在信息论中的信息度量指标,标识了一个事件集合与另一个事件集合关系的信息量。两个事件集合之间的互信息越大就表明相关性越大,反之越小。互信息作为计算语言学模型分析的常用方法,由于它对特征词和分类之间关系的性质没有任何限制,所以互信息常常用于文本分类的特征和类别的配准。
在新词发现方法中,利用互信息能够发现字符串与字符串之间的一个关联程度,字符串X,Y互信息的计算公式如下:
其中,X、Y表示字符串或者单字;p(XY)表示字符串X和字符串Y在输入语料中同时出现的概率;p(X)和p(Y)分别表示字符串X在输入语料中出现的概率和字符串Y在输入语料中出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司;重庆大学,未经浪潮电子信息产业股份有限公司;重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611152464.X/2.html,转载请声明来源钻瓜专利网。