[发明专利]一种针对中医药症状句子的中文分词方法有效
申请号: | 201710508975.9 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107357780B | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 姜晓红;毛宇;付钊;杜定益;陈广;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 33224 杭州天勤知识产权代理有限公司 | 代理人: | 王琛 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中医药 症状 句子 中文 分词 方法 | ||
本发明公开了一种针对中医药症状句子的中文分词方法,该分词方法首先通过分割词库、频繁词库做预筛选,然后利用正向条件概率和逆向条件概率做进一步分析,对于依旧不能确定的情况,再综合相对位置给出最后的结果。本发明分词方法有效地针对了中医药症状领域的特殊性,克服了传统中文分词方法不适用于中医药领域的缺点,在分词的准确率和召回率上均有较大的提高。
技术领域
本发明属于中医药信息化和自然语言处理技术领域,具体涉及一种针对中医药症状句子的中文分词方法。
背景技术
中医药起源于中国,是中华民族特色文化的一部分,也是医学界的一派重要分支。随着信息技术和人工智能的迅速发展,越来越多的领域开始引入信息化和智能化,中医药领域也不例外。由于中医药经历了漫长的发展,在此期间慢慢的累积了无数数据,这些数据中拥有着巨大的能量和医学规律,如果可以充分利用信息技术和互联网技术等多种手段,将这些隐性的经验知识和精髓转换成现代的显性知识,并将这些隐性知识规律化、可视化、数量化、智能化,这是进一步推动中医药发扬光大的有效手段,也会极大的推动全人类的医疗和健康事业。
在中医药信息化的过程中,一项非常基础的工作就是对中医药的症状句子进行分析,而句子分析的第一步就是进行中文分词工作。虽然目前已有的分词算法已经达到了很高的召回率和准确率,但这仅仅局限于现代汉语,对于中医药症状这类具有古汉语特色的句子,其分词效果并不理想。
发明内容
鉴于上述,本发明结合已有的中文分词算法和中医药症状数据的特点,提出了一种针对中医药症状句子的中文分词方法,可以对中医药症状句子达到更好的分词效果。
一种针对中医药症状句子的中文分词方法,包括如下步骤:
(1)获取中医药症状语料库并对其进行数据清洗;
(2)对语料库中所有相邻汉字组合的出现频次进行统计,将大于一定阈值的相邻汉字组合提取出来,并将这些相邻汉字组合归为频繁词库和分割词库;所述相邻汉字组合由相邻两个汉字组成;
(3)通过对语料库中汉字单独出现次数以及相邻汉字组合出现频次进行统计,计算出相邻汉字组合的正向条件概率和逆向条件概率;
(4)通过对语料库中相邻汉字互相依赖的次数进行统计,计算出相邻汉字组合中两个汉字的相对位置值;
(5)对于任一给定的中医药症状句子,从左到右逐个扫描相邻两个汉字,综合所述频繁词库和分割词库、正向条件概率和逆向条件概率以及相对位置值来判断相邻两个汉字是否应该被分割。
进一步地,所述步骤(1)中对中医药症状语料库进行数据清洗的方法为:根据中英文符号中的逗号、句号、分号、顿号、大括号、中括号以及小括号字符将医药症状语料库中的每一行症状语句进行分隔。
进一步地,所述步骤(2)中采用人工方式将提取出来的相邻汉字组合归为频繁词库和分割词库,使一些为常用词组的相邻汉字组合归为频繁词库,其余相邻汉字组合归为分割词库。
进一步地,所述步骤(3)中根据以下公式计算相邻汉字组合的正向条件概率和逆向条件概率:
其中:对于任一相邻汉字组合,其由两个相邻汉字A和B组成且A在前B在后,P(B|A)和P(A|B)分别为该相邻汉字组合的正向条件概率和逆向条件概率,Count(A)和Count(B)分别为汉字A和汉字B在语料库中单独出现的频次,Count(AB)为该相邻汉字组合在语料库中出现的频次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710508975.9/2.html,转载请声明来源钻瓜专利网。