[发明专利]一种基于SNOMED-CT的医学名词词典构造与拓展方法在审
申请号: | 202010268546.0 | 申请日: | 2020-04-08 |
公开(公告)号: | CN111460175A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 江瑞;傅卓然;陈福沨 | 申请(专利权)人: | 福州数据技术研究院有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/126;G06K9/62;G16H70/00 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350000 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 snomed ct 医学 名词 词典 构造 拓展 方法 | ||
本发明公开一种基于SNOMED‑CT的医学名词词典构造与拓展方法,将目标文本进行中文分词从而获得每个句子之中的词语。其次,利用语义依存算法对分词的句子进行分析从而获得名词短语。最终,以已有的规范化的医学词典SNOMED‑CT为基础与文本中所提取的医疗短语进行对比通过预先定义的相似度对备选名词短语进行筛选,所选得的名词短语则被视为新的医学名词,从而组成词典。本发明解决同概念多表达、缩写、简称等问题,构造覆盖面更广的基本医学术语词典。本发明作为自然语言处理的第一部,可为后续命名实体识别、关系提取、实体对齐等任务提高速度以及精度。
技术领域
本发明涉及医疗系统数据处理技术领域,尤其涉及一种基于SNOMED-CT的医学名词词典构造与拓展方法。
背景技术
医护人员可通过病历进行分诊,确认后续所需进行的检查,疾病的诊断,以及判断最终所需的治疗。但是目前我国在医疗产业1多重问题,最为紧迫的则为医护人员短缺,医疗资源分配不均,以及大量的误诊案例,仅在临床护理当中每年平均约有5700万病例被误诊,总误诊率高达27.8%。
目前在诊断的过程中有大量的病历需要人工进行阅读、理解、分析以及做出最终的判断。随着病人数量的日益增长和对疾病诊断准确率要求的不断提高,需要分析的病历数量成倍增长,医生的工作量也急剧增高,需要增加更多人员来应对更大量的诊断需求。然而我国目前平均每476人拥有一位医生,医生缺口达到9万多人,并且面临着技术水平参差不一,医疗资源分配不均匀等问题。优质医疗资源全部集中在大城市,而村镇人口经常面临无法在本地诊治常见病之外的疾病,为诊断的进一步发展带来了极大的困难。智能自动诊断以及辅助诊断的引入则可缓解我国在此方面所面临的难题。智能辅助诊断技术可大大提高诊断的速度和效率,并可在一定程度上缓解医疗资源分配不均的问题。智能辅助诊断技术依赖于自然语言处理技术,而自然语言处理则包括命名实体识别、关系提取、实体对齐等模块。这些模块在最基础层面则都依赖于一个或多个标准医学词表。由于语言的多样性表达目前现有的标准化词表并不能完全覆盖文本中所出现的大部分词汇。
发明内容
本发明的目的在于提供一种基于SNOMED-CT的医学名词词典构造与拓展方法。
本发明采用的技术方案是:
一种基于SNOMED-CT的医学名词词典构造与拓展方法,其包括以下步骤:
步骤1,获取原始医疗文本进行中文分词以获得每个句子之中的词语;
步骤2,利用语义依存算法对分词的句子进行分析获得名词短语构成备选词语表;
步骤3,在备选词语列表中通过与基础词语列表SNOMED-CT中的词汇进行相似度计算,相似度Sim(tc,tm)的计算公式如下:
其中,tc代表备选词,tm代表SNOMED中的参考词,Simst(tc,tm)表示tc和tm两者的笔划相似度,Simpy(tc,tm)表示tc和tm两者的拼音相似度,Simss(tc,tm)表示tc和tm两者的最大子字符串相似度;
步骤4,将备选词语表中相似度大于设定阈值的词汇录入词典,依次迭代形成自定义医学词典。
进一步地,步骤1中采用结巴分词算法对原始医疗文本进行分词。
进一步地,步骤2的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州数据技术研究院有限公司,未经福州数据技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010268546.0/2.html,转载请声明来源钻瓜专利网。