[发明专利]基于语义的不完全最大匹配分词方法有效

申请号：	202110888301.2	申请日：	2021-08-03
公开（公告）号：	CN113536807B	公开（公告）日：	2023-05-05
发明（设计）人：	苏航;周汉清;吕海熊;张春雷;丁新;刘勇	申请（专利权）人：	中国航空综合技术研究所
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/284;G06F40/242
代理公司：	北京孚睿湾知识产权代理事务所(普通合伙) 11474	代理人：	刘翠芹
地址：	100028 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义不完全最大匹配分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于语义的不完全最大匹配分词方法，其特征在于：利用语义词典中的语义元素重新定义匹配算法的切分原则，具体包括以下步骤：

S1、构建正向语义相似度词典：利用训练集语料T和同义词词林构建正向语义相似度词典D^Sim，构建过程具体包括以下子步骤：

S11、对于训练集语料T中词条w_i，n_i个后续词条组成的集合为C_w＝{w_ij,1≤j≤n_i}，由w_i与w_ij的语义相似度组成的集合计为C_Sim＝{w_ij:Sim_ij,1≤j≤n_i}，其中w_ij表示w_i的第j个后续词条，Sim_ij表示w_i与w_ij在词林中的语义相似度，表示词条w_i与所有后续词条语义相似度的平均值，即：

S12、以w_i为键存储C_Sim和均值收录T内相邻词条的语义信息，得到D^Sim；

S2、对词语进行切分，得到初始词，其具体包括以下子步骤：

S21、假设有长度为n的待切分汉字串S_n＝w₁w₂……w_n，将含有所有词条的通用词典计为D；在一轮最大匹配算法中，所有匹配成功的h组成的集合计作C_h＝{h|(1≤h≤k)∩w₁w₂......w_h∈D}，其中，h表示待切分汉字串在通用词典D中存在的词条长度，k表示最大匹配算法的匹配词长，即w₁w₂……w_k是最大匹配算法的首个切分结果，集合C_h内每一个元素构成的分词都属于通用词典D，均作为备用结果；

S22、计算每一个词的三特征权值WE，计算公式如下：

其中，S_h表示由集合C_h中元素确定的长度为h的分词；表示词语S_h与后续词的平均语义相似度；表示最大的平均语义相似度；p_h表示在通用词典D中词长为h的词语出现的频率；p_max表示在通用词典D中p_h的最大值；

S23、取三特征权值最大的S_h作为分词结果，计为初始词S_h＝w₁w₂……w_h；

S3、自动识别后续词：对于待切分汉字串S_n＝w₁w₂......w_n经过S2的切分方法得到S_h＝w₁w₂......w_h(h≤n)后，在词典D^Sim中读取所有S_h的后续词集合如果有S_h的某个后续词匹配成功，即将S_h2自动识别为初始词S_h的后续词；

若存在多个S_h2，取与S_h语义相似度最大的作为初始词S_h的后续词；若不存在继续执行步骤S2切分S_h的后续串，即输入串为S_n-h＝w_h+1w_h+2......w_n；

S4、反复执行步骤S2-S3，最终切分完成汉字串S_n。

2.根据权利要求1所述的基于语义的不完全最大匹配分词方法，其特征在于：步骤S12中，D^Sim的存储结构如下表所示：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所，未经中国航空综合技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110888301.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种结构稳定、保护功能强的航空箱
下一篇：一种PC构件的立体化生产设备及其控制方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语义的不完全最大匹配分词方法有效

专利文献下载