[发明专利]一种基于医学专业词典与统计算法的分词方法有效
申请号: | 201810478904.3 | 申请日: | 2018-05-18 |
公开(公告)号: | CN110502737B | 公开(公告)日: | 2023-02-17 |
发明(设计)人: | 朱卫国;沙鸥;闻思源;赵从朴 | 申请(专利权)人: | 中国医学科学院北京协和医院;睿医(北京)数据技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于医学专业词典与统计算法的分词方法,包括以下步骤:语料预处理、候选词条的表达与产生实现、分词结果判别、分词结果的歧义消除、医学词典的构造和未登录词的发现。本发明有效解决了当前无针对中文医学语料的专用分词方法模型和系统的问题,提升中文医学语料分词准确率、召回率和F值等关键评价指标。 | ||
搜索关键词: | 一种 基于 医学专业 词典 统计 算法 分词 方法 | ||
【主权项】:
1.一种基于医学专业词典与统计算法的分词方法,其特征在于,包括以下步骤:/nS1、语料预处理:在分词算法执行前,对待分词语料进行断句处理,即利用一些特殊的符号将待分词语料分隔成多个稍微简单一点的短句,再进行分词处理,最后再把各个分词结果组合起来,形成最终的分词结果;分成短句之后,即可进行原子切分,经过原子切分后,待分词语料进一步构成了更短的短字串数组,针对原子切分后的短字串数组,找出所有候选词条,以备进一步分词。/nS2、候选词条的表达与产生实现:/n①候选词条的表达:原子切分之后通过两个循环把原子之间所有可能的组合,即所有候选词条都找出来;找出所有候选词条以后,将所有字串表示成带权有向无环图,针对带权有向无环图,通过最短路径求解,得出最终分词结果。/n(2)基于改进型FMM和RMM产生候选词条:采用改进的正向最大匹配和逆向最大匹配方法找出所有候选词条,从而形成最为完整的候选词条集合;候选词条集合形成后,即需要对其进行分词结果判别,以形成优化分词结果,本发明中,采用K-最短路径,对候选词条进行结果判别。/nS3、分词结果判别:通过本专利所述改进型FMM和RMM算法,找出候选词条后,并转换为有向无环图,并通过求解模型求解有向无环图中始末结点间的最短路径K,该最短路径即为切分结果。/nS4、分词结果的歧义消除:利用汉字二元语法关系、结合双字耦合度和t_测试差计算各个歧义位置连或者断的概率,并根据概率值来决定歧义位置的连通或切断。/nS5、医学词典的构造;/nS6、未登录词的发现:基于PMIk算法实现未登录词的发现且未登录词的发现主要分为以下四个阶段,①确定2元待扩展种子;②将2元待扩展种子扩展至2~n元;;③过滤候选新词;④人工判定入库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院北京协和医院;睿医(北京)数据技术有限公司,未经中国医学科学院北京协和医院;睿医(北京)数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810478904.3/,转载请声明来源钻瓜专利网。