[发明专利]基于语义理解的中文实词提取算法在审

申请号：	201710475016.1	申请日：	2017-06-21
公开（公告）号：	CN107273360A	公开（公告）日：	2017-10-20
发明（设计）人：	张鹏	申请（专利权）人：	成都布林特信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京天奇智新知识产权代理有限公司11340	代理人：	杨春
地址：	610000 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义理解中文实词提取算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理，特别涉及一种基于语义理解的中文实词提取算法。

背景技术

随着网络技术及Internet的逐渐成熟，传统的单一关键词方式已不能满足当前海量信息的内容获取需求，如何设计好问答系统成为网络搜索需要解决的一个重要技术。从现有的问答系统来看，中文由于其分词的复杂性和语义识别等方面的限制，成形产品技术相对较落后，例如，由于现有分词方法必须首先设定一个匹配词长的初始值，词长过长则算法的时间复杂度提高；词长过短则切分正确率降低。对于二义字段的处理也不能满足实际用户需要。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于语义理解的中文实词提取算法，包括：

采用散列树词典建立数据检索结构；

根据断句表，将中文句子切分为短句，在进行匹配分词的同时保存匹配过程中字符串的匹配信息；

通过字符串的匹配信息以及逐词扫描来判断存在的二义字段，

将预切分的中间结果交给细分过程进行处理。

优选地，所述细分过程进一步包括：对于预切分结果中包含的二义字段的所有切分路径，根据训练语料库中的词频信息，利用统计模型计算出所有切分路径中词的概率，概率最大的词即是最优词。

优选地，所述二义字段通过以下过程进行消除：

设置三个参数，词性状态矩阵A、符号概率分布矩阵B、初始状态概率分布π；

其中词性状态矩阵A即为词性状态矩阵，把41个词性之间的状态转移矩阵转化为表的形式存储其中；矩阵A的元素a_ij为：

a_ij＝N(T_i，T_j)/N(T_i)

其中N(T_i，T_j)是在训练中词性标记T_j紧跟在T_i后出现的次数，N(T_i)是标记T_i出现的次数；