[发明专利]基于编辑距离的医学术语归一化方法、系统及介质在审
申请号: | 202210526165.7 | 申请日: | 2022-05-16 |
公开(公告)号: | CN114819155A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 李宇萱;李向阳 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F16/901;G06F16/903;G06F40/289 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 编辑 距离 医学 术语 归一化 方法 系统 介质 | ||
1.一种基于编辑距离的医学术语归一化方法,其特征在于包括如下步骤:
获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
对于要获取归一词的目标实体,计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;
对于原词组中每个实体原词,从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;
如果归一词词组中匹配到的实体归一词为多个,通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词。
2.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果目标实体对应的实体类型为已知,基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
3.根据权利要求1所述的基于编辑距离的医学术语归一化方法,其特征在于如果所述目标实体未存在于知识库中,对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
4.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于将目标实体与知识库中实体原词逐个进行字符串之间的编辑操作,计算出目标实体与实体原词之间的编辑距离,所述编辑操作包括添加、删除和修改;
所述编辑距离计算公式为:
其中,a表示,b表示,i表示,j表示,ai表示,bi表示。
5.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于依据国家发行的标准数据集、期刊、医学相关知识文档和文献进行数据处理提取出各类型的医学术语归一词。
6.根据权利要求1、2或3所述的基于编辑距离的医学术语归一化方法,其特征在于所述实体类型包括疾病、药物、手术、检验检查以及操作。
7.一种基于编辑距离的医学术语归一化系统,其特征在于用于通过如权利要求1-6任一项所述的基于编辑距离的医学术语归一化方法对医学术语进行归一化,所述系统包括:
数据采集模块,所述数据采集模块用于获取医学医学术语归一词作为实体归一词,并对实体归一词标注实体类型;
知识库构建模块,所述知识库构建模块用于获取各个地区各个医院的实体原词,将实体原词和与其对应的实体归一词、实体类型作为一个词组,将词组作为知识构建知识库;
实体归一化模块,所述实体归一化模块用于计算目标实体与知识库中各个实体原词之间的编辑距离,并选取与目标实体的编辑距离小于阈值的一个或多个实体原词,将所述一个或多个实体原词作为所述目标实体的原词组;对于原词组中每个实体原词,用于从知识库中匹配对应的实体归一词,得到所述目标实体对应的归一词词组;如果归一词词组中匹配到的实体归一词为多个,用于通过人工判定的方式选择一个实体归一词为所述目标实体对应的实体归一词;
知识库更新模块,所述知识库更新模块用于判断目标实体是否存在于知识库中,如果所述目标实体未存在于知识库中,用于对所述目标实体进行人工校验后,将所述目标实体作为新的实体原词,将所述新的实体原词以及对应的实体归一词和实体类型作为一个词组,将所述词组作为知识更新至所述知识库中。
8.根据权利要求7所述的基于编辑距离的医学术语归一化系统,其特征在于所述实体归一模块用于判断所述模板实体类型是否已知,如果目标实体对应的实体类型为已知,用于基于实体类型从知识库中筛选出与所述目标实体同一个类型的实体原词,对于每个筛选出的每个实体原词,计算目标实体与所述实体原词之间的编辑距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210526165.7/1.html,转载请声明来源钻瓜专利网。