[发明专利]一种实体链接方法及装置有效
申请号: | 202010177062.5 | 申请日: | 2020-03-13 |
公开(公告)号: | CN111462914B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 史亚飞 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/295;G06F40/30;G06F40/194 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 链接 方法 装置 | ||
本发明公开了一种实体链接方法及装置,所述方法包括:获取医疗知识图谱;通过图嵌入模型对医疗知识图谱进行计算,以得到若干个不同的实体嵌入向量;基于所述若干个不同的实体嵌入向量,确定实体链接模型;根据所述实体链接模型完成医疗实体的链接。通过本发明的技术方案,使得模型学习到了实体更多的信息,提高了模型的学习能力,进而链接效果更佳。
技术领域
本发明涉及医疗技术领域,特别涉及一种实体链接方法及装置。
背景技术
目前实体链接方法,使用Google发布的BERT中文语言模型,通过在其fine-tuning微调阶段设置参数获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度进行实体对齐。
这种方法未考虑加入外部知识来增强BERT模型的学习能力,因而链接效果不太符合需求。
发明内容
本发明提供一种实体链接方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种实体链接方法,包括:
获取医疗知识图谱;
通过图嵌入模型对医疗知识图谱进行计算,以得到若干个不同的实体嵌入向量;
基于所述若干个不同的实体嵌入向量,确定实体链接模型;
根据所述实体链接模型完成医疗实体的链接。
在一个实施例中,所述基于所述若干个不同的实体嵌入向量,确定实体链接模型,包括:
获取训练数据集;
通过预设算法对所述训练数据集进行解析,以得到训练数据集的语义成分;
从所述医疗知识图谱中匹配出与所述语义成分对应的第一医疗实体;
从所述若干个不同的实体嵌入向量中提取出与所述第一医疗实体对应的实体嵌入向量;
基于所述第一医疗实体对应的实体嵌入向量,确定所述实体链接模型。
在一个实施例中,所述基于所述第一医疗实体对应的实体嵌入向量,确定所述实体链接模型,包括:
获取预训练模型;
将所述第一医疗实体对应的实体嵌入向量与所述预训练模型本身的tokenembedding、position embedding、segment embedding进行结合,以得到增强的embedding;
通过微调的方式,将所述增强的embedding输入至所述预训练模型进行训练,以得到所述实体链接模型。
在一个实施例中,所述根据所述实体链接模型完成医疗实体的链接,包括:
从医疗数据集中抽取医疗术语;
通过预设检索算法对所述医疗知识图谱进行检索,以得到与所述医疗术语相似度大于预设阈值的预设数目个第二医疗实体;
基于所述实体链接模型,对所述预设数目个第二医疗实体进行链接,以完成医疗实体的链接。
在一个实施例中,所述基于所述实体链接模型,对所述预设数目个第二医疗实体进行链接,包括:
通过所述实体链接模型对所述预设数目个第二医疗实体进行计算,以得到所述预设数目个第二医疗实体相互之间进行匹配的分值;
将所述预设数目个第二医疗实体按照相互之间进行匹配的分值的最高值进行链接。
根据本发明实施例的第二方面,提供了一种实体链接装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010177062.5/2.html,转载请声明来源钻瓜专利网。