[发明专利]一种自适应动态分词方法在审
| 申请号: | 202210441833.6 | 申请日: | 2022-04-25 |
| 公开(公告)号: | CN114881017A | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 王峥;杨梦玲;武志彦;董文君;臧高峰;陈虎 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/237 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
| 地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自适应 动态 分词 方法 | ||
1.一种自适应动态分词方法,其特征在于,包括如下步骤:
S1、将原始文本直接输入领域专属词匹配模块,若匹配中某个领域的专属词典,则直接进入该领域的分词;
S2、若领域专属词汇匹配失败时,则进入领域模式匹配模块,在该模块对所有预设的领域模式进行匹配,最终评估匹配效果,若匹配成功则直接进入分词模块完成分词;
S3、若领域模式匹配失败则进入领域分类模块,利用深度学习模型融合模式匹配效果进行领域分类,最终根据分类结果完成分词。
2.根据权利要求1所述的一种自适应动态分词方法,其特征在于,所述步骤S1中领域专属词匹配模块包括领域专属词汇生成和领域专属词汇匹配两个过程,所述领域专属词汇生成的具体步骤为:
S1.1、准备好领域语料以及非领域语料;
S1.2、分别对领域语料和非领域语料进行初步分词,可以直接采用jieba分词得到领域词集以及非领域词典;
S1.3、对领域词集过滤停用词;
S1.4、对于jieba通用分词粒度通常很小,可以将相邻的几个词组合成新词,包括如下三种方法:
方法一:T检验模型:
其中,是样本均值,s2是样本方差,N是样本的大小,u是分布的均值;此时我们的零假设为n元词组是独立出现的,遍历计算所有一元组到四元组的t统计量,在置信度度α=0.005的水平,对于统计量t2.576的n元词组,我们可以有99.5%的信任度拒绝零假设,即有99.5%的信任度认为该词成立;
方法二:凝固度模型:
若词X和词Y一起出现的概率除以其各自出现的概率值越大,说明词XY出现在一起的概率最高;
方法三:自由度模型:H(U)=-∑ipilogpi
若词X和Y两侧出现的词越杂越多,即其两侧取词的自由度越高,词XY越独立,若有一侧自由度很低,则说明词XY不是单独出现,可能为XYZ词中的一部分;
S1.5、使用S1.4中的三种方法的排序结果,按置信度由高到低选取一定量的词语加入jieba分词自定义词典,重新对语料数据进行分词,使用word2vec模型计算得到各个词的空间向量;
S1.6、取S1.4中的三种方法结果的交集作为种子词,剩余其他的词作为候选新词;
S1.7、对于每个种子词,在候选新词中按相似度排序选取相似度较高的词,然后投票并按投票结果进行排序,得到领域关键词;
S1.8、将领域关键词与非领域词典取差集,最后得到领域词典。
3.根据权利要求2所述的一种自适应动态分词方法,其特征在于,所述领域专属词汇匹配的具体流程如下:
若只匹配到单个特定领域的专属词,则直接加载该领域词典与common词典相结合完成分词;
若同时匹配到了多个领域专属词典,则对文本进行分段处理,若每一段文本都只有特定领域词典,则分段完成分词;
若单独段落中仍有多个领域词典,则进入领域匹配模式。
4.根据权利要求1所述的一种自适应动态分词方法,其特征在于,所述步骤S2中领域模式匹配模块包括领域匹配模式和模式匹配,所述领域匹配模式用于对每个领域预设一些匹配模式,并限制前词与后词之间的距离小于15。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210441833.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能数控车床
- 下一篇:空中立交式立体停车系统





