[发明专利]医学实体对齐方法及装置在审

专利信息
申请号: 202111409062.4 申请日: 2021-11-25
公开(公告)号: CN114091425A 公开(公告)日: 2022-02-25
发明(设计)人: 李瑞瑞;吉龙;赵伟 申请(专利权)人: 北京富通东方科技有限公司
主分类号: G06F40/189 分类号: G06F40/189;G06F40/194;G06F40/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100086 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 医学 实体 对齐 方法 装置
【说明书】:

本公开涉及一种医学实体对齐方法及装置,其中,方法包括:确定目标医学实体与标准医学实体数据集中的每个标准医学实体之间的语义相似度和文本结构相似度;基于文本结构相似度与语义相似度,确定文本结构相似度的权重系数和语义相似度的权重系数;基于权重系数分别对文本结构相似度、语义相似度进行加权,确定目标医学实体与各标准医学实体之间的目标相似度,以根据目标相似度从所述标准医学实体数据集中确定与目标医学实体匹配的标准医学实体。根据本公开的技术方案能够提高医学实体对齐的准确度。

技术领域

本公开涉及数据处理技术领域,尤其涉及一种医学实体对齐方法及装置。

背景技术

在海量电子医疗信息中,对于同一医学实体存在不同的称谓方式,多种多样的称谓方式为医疗领域的本体构建和知识图谱的构建带来了阻碍。因此,需要将多称谓的医学实体映射到标准的术语中,实现融合利用多源数据知识。

目前,医学实体对齐的方法包括相同字符数、莱文斯坦距离、Jaro距离、汉明距离、统计语言模型、n-gram模型、主题模型、基于实体属性标签的实体对齐方法等,然而实际应用中的医学实体词汇多种多样,基于单一方法进行医学实体对齐的准确度有待提高。

申请公布号为CN112948599A,名称为“一种基于医学知识图谱的路径推理的疾病诊断方法”的专利中,公开了采用Levenshtein距离、相同字符比和语义向量距离的加权和作为实体相似度得分来进行实体对齐的技术方案,但该方案中所采用的距离计算方法仅能得到粗略的相似度结果,准确度仍具有提升空间。

申请公布号为CN113204710A,名称为“一种舆情分析方法、装置、终端设备及存储介质”的发明专利,公开了获取舆情信息的竞争力指标;若预存的多个标准指标中不包括竞争力指标,计算竞争力指标与每个标准指标的语义相似度;在语义相似度均小于第一预设阈值时,基于语义相似度,从标准指标中筛选出候选指标;计算候选指标和竞争力指标的字面相似度;若字面相似度中存在大于第二预设阈值的字面相似度,则将大于第二预设阈值的字面相似度中的最大值对应的候选指标作为与竞争力指标相匹配的标准指标的技术方案,但该方案是查询与语句中的关键词相近的标准词并替换,以降低舆情分析工作的数据量,应用场景有限。

申请公布号为CN111581960A,名称为“一种获取医学文本语义相似度的方法”的发明专利公开了计算基于医学文本之间三种不同特征的相似度;用回归模型学习基于不同特征的三种相似度在医学文本之间最终的相似度的权重,再用线性模型结合所述的三种相似度计算出最终的相似度的技术方案,但该方案需要提取与处理三种不同类型的文本特征,虽然能有效提升准确率但运算量过大,对运算设备有较高要求。

申请公布号为CN110674378A,名称为“基于余弦相似度和最小编辑距离的中文语义识别方法”的发明专利,公开了S5、结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语,根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值;S6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,根据最小编辑距离算法得出中文拼音的匹配率数值;S7、语义总匹配度计算:根据步骤S5中计算得到的中文文字匹配度数值,步骤S6中拼音匹配度的数值,再结合步骤S4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度的技术方案,但由于医学领域实体的特殊性,简单的结合词频以及拼音并不能有效地解决医学实体对齐中存在的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种医学实体对齐方法及装置。

第一方面,本公开实施例提供了一种医学实体对齐方法,包括:

获取待处理的目标医学实体和预设的标准医学实体数据集;

确定所述目标医学实体与所述标准医学实体数据集中的每个标准医学实体之间的语义相似度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京富通东方科技有限公司,未经北京富通东方科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111409062.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top