[发明专利]一种基于最小信息量的汉语快速分词系统及方法有效
申请号: | 201610874929.6 | 申请日: | 2016-09-30 |
公开(公告)号: | CN106484677B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 蒋东辰;闫艺鑫;牛颖 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/2458 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;卢纪 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于最小信息量的汉语快速分词系统及方法,包括备选词确定、歧义区域识别、歧义分词消除、结果统计四个模块。本发明无需提前获取词语的先验统计信息,并且能够在仅有词库的条件下实现高效分词。该方法适用于各种中文文本的分词处理,在搜索引擎、文本信息提取、文本语义分析、知识图谱等的中文信息处理领域有着重要的应用价值。 | ||
搜索关键词: | 一种 基于 最小 信息量 汉语 快速 分词 系统 方法 | ||
【主权项】:
1.一种基于最小信息量的汉语快速分词系统,其特征在于:包括备选词确定模块、歧义区域识别模块、歧义分词消除模块和结果统计模块,其中:备选词确定模块:获得文本中的所有中文词语、汉字的位置与数量信息,并根据词典对文本进行初步的统计,以避免由于缺少词语先验统计信息或出现新词带来的不准确分词;从输入文本的第一个字符位置开始,利用词典,逐个确定文本中出现的全部汉字和所有中文词语,并记录全部汉字和所有中文词语的位置和数量;在文本中,所有可能是最终分词结果的词语都被称为备选词;歧义区域识别模块:根据备选词确定模块的全部汉字和所有中文词语的位置和数量,确定输入文本的所有歧义区间,以便后续的歧义消除;所述歧义区间是指有可能产生歧义划分的所有相关备选词的文本位置区间;基于备选词的位置信息,确定词语划分的三种情况:无歧义分词、单汉字分词和有歧义分词;对于无歧义分词和单汉字分词,将无歧义分词和单汉字分词作为分词结果记录;对于有歧义分词,记录歧义区间的起止位置及区间内备选词的序数信息,将有歧义分词交由歧义分词消除模块,以进一步消除该歧义区间的分词歧义,待歧义分词消除模块返回分词方案后,将该分词方案记入结果集;对某个字符长度大于等于2的备选词,如果备选词中的字符与备选词前、后的若干连续字符都不构成词典中的词语即另一个不同的备选词,则称该备选词为无歧义分词;如果某个汉字与它前后的字符都不构成词语,则某个汉字本身不会与其他汉字或词语产生歧义划分,称为单汉字分词;某个备选词的部分连续字符与它前、后的字符串构成新的备选词,则该词的划分就被称为有歧义划分;歧义分词消除模块:对给定歧义区间中的所有可选分词方案作比较,依据信息量最小原则,选择最优分词方案分词,并将结果存储,同时将结果返回给歧义区域识别模块执行,整个文本分词处理结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610874929.6/,转载请声明来源钻瓜专利网。