[发明专利]一种自适应动态分词方法在审

专利信息
申请号: 202210441833.6 申请日: 2022-04-25
公开(公告)号: CN114881017A 公开(公告)日: 2022-08-09
发明(设计)人: 王峥;杨梦玲;武志彦;董文君;臧高峰;陈虎 申请(专利权)人: 南京烽火星空通信发展有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/237
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 陆志斌
地址: 210019 江苏省南京市建*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自适应 动态 分词 方法
【说明书】:

发明公开了一种自适应动态分词方法,包括步骤:S1、将原始文本直接输入领域专属词匹配模块,若匹配中某个领域的专属词典,则直接进入该领域的分词;S2、若领域专属词汇匹配失败时,则进入领域模式匹配模块,在该模块对所有预设的领域模式进行匹配,最终评估匹配效果,若匹配成功则直接进入分词模块完成分词;S3、若领域模式匹配失败则进入领域分类模块,利用深度学习模型融合模式匹配效果进行领域分类,最终根据分类结果完成分词。该种自适应动态分词方法,通过多模型融合自动地挖掘更多的领域专属词汇,丰富领域词典,动态计算模式匹配得分效果,并将模式匹配抽取的特征与文本语义结合,提高领域分类精度,提升不同领域的分词效果。

技术领域

本发明涉及分词系统技术领域,具体为一种自适应动态分词方法。

背景技术

随着计算机的普及,信息的重要性与日俱增,面对网络中五花八门的数据,如何挖掘其中隐含的信息,让数据发挥出最大的价值,是每个人的探索热点,这其中比较典型的应用有搜索引擎、智能问答、知识图谱等,而所有应用的基础都是分词技术,做好了分词,就等于完美地接下了第一棒。当前比较为人熟知的分词系统有结巴、哈工大LTP、HanLP、斯坦福的CoreNLP等,采用的分词技术有基于词典匹配、基于统计、基于深度学习等方法。

然而在实际运用时,不同领域的数据应当有不同的切分维度,比如“K粉”这个词在通用领域中会被切分为“K/粉”两个词,而在化学领域则应该切分一个词,学名氯胺酮,是一种麻醉药品,常会被作为毒品吸食,对涉毒缉拿等有重要作用。但是业界基于词典匹配的分词方法多是将词语放在一个文件中,直接按照单一的词典分词,或是设置多个词典,但是分词时按照固定顺序查找词典,这样会导致不同领域的数据切分维度都相同,针对特别领域分词泛化性不足。

为了提高分词的泛化效果,针对不同领域数据进行不同维度的分词,亟需设计一种通过融合领域专属词汇、模式匹配与深度学习相结合的领域分类技术来动态调整分词所依赖的词典,以自适应地根据不同领域数据选择合适的切分维度。因此我们对此做出改进,提出一种自适应动态分词方法。

发明内容

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明一种自适应动态分词方法,包括如下步骤:

S1、将原始文本直接输入领域专属词匹配模块,若匹配中某个领域的专属词典,则直接进入该领域的分词;

S2、若领域专属词汇匹配失败时,则进入领域模式匹配模块,在该模块对所有预设的领域模式进行匹配,最终评估匹配效果,若匹配成功则直接进入分词模块完成分词;

S3、若领域模式匹配失败则进入领域分类模块,利用深度学习模型融合模式匹配效果进行领域分类,最终根据分类结果完成分词。

作为本发明的一种优选技术方案,所述步骤S1中领域专属词匹配模块包括领域专属词汇生成和领域专属词汇匹配两个过程,所述领域专属词汇生成的具体步骤为:

S1.1、准备好领域语料以及非领域语料;

S1.2、分别对领域语料和非领域语料进行初步分词,可以直接采用jieba分词得到领域词集以及非领域词典;

S1.3、对领域词集过滤停用词;

S1.4、对于jieba通用分词粒度通常很小,可以将相邻的几个词组合成新词,包括如下三种方法:

方法一:T检验模型:

其中,是样本均值,s2是样本方差,N是样本的大小,u是分布的均值;此时我们的零假设为n元词组是独立出现的,遍历计算所有一元组到四元组的t统计量,在置信度度α=0.005的水平,对于统计量t2.576的n元词组,我们可以有99.5%的信任度拒绝零假设,即有99.5%的信任度认为该词成立;

方法二:凝固度模型:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210441833.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top