[发明专利]一种基于双邻域图神经网络的医疗实体对齐方法及系统有效

申请号：	202110709149.7	申请日：	2021-06-25
公开（公告）号：	CN113361279B	公开（公告）日：	2023-07-25
发明（设计）人：	史新晨;章永龙;李斌	申请（专利权）人：	扬州大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06N3/048;G06N3/084;G06N3/0985;G06F16/335;G06F16/35;G06F16/36;G16H50/70
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	孟红梅
地址：	225009 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于邻域神经网络医疗实体对齐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于双邻域图神经网络的医疗实体对齐方法及系统，属于自然语言处理中的知识图谱融合领域。本发明首先抽取医疗实体对及相应的关系和属性，预处理后构建实体对齐数据集；然后通过双邻域特征聚合生成实体邻域和属性邻域的节点特征，并通过串联操作和跳跃连接生成全局感知的实体表示；最后进行实体相似度计算与训练，并用训练完的模型预测源实体的目标实体。本发明提出的方法将医疗知识图谱中的相关属性视为一类特殊的节点，从而将实体和属性建模在统一的网络中，并使用双邻域图神经网络对图中的节点进行嵌入，这样可以同时捕获实体邻域和属性邻域中的结构相似性，最终生成语义丰富的实体表示，达到提高医疗实体对齐准确性的目的。

技术领域

本发明属于自然语言处理中的知识图谱融合领域，特别涉及一种基于双邻域图神经网络的医疗实体对齐方法及系统。

背景技术

随着数据挖掘的繁荣发展，众多领域都产生了相应的知识图谱。在医疗领域，医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。例如阿奇霉素在百度百科中被称为希舒美，在A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等，商品名有泰力特、希舒美、舒美特等。实体对齐可以自动识别不同医疗知识图谱中的等价实体，是医学知识融合中非常重要的一步。

目前，基于嵌入的实体对齐是实体对齐任务中的主流方法，它的关键思想是将知识图谱中的元素(如实体和关系)表示为低维向量(称为嵌入)，使得实体的语义相关性被嵌入空间的几何结构捕获。根据嵌入模型的不同，基于嵌入的实体对齐可以分为两大类，即基于翻译的实体对齐和基于图神经网络的实体对齐。第一类方法使用TransE及其变体建模知识图谱的结构，它们将关系解释为从其头部实体到其尾部实体的翻译。第二类方法使用图神经网络对知识图谱进行嵌入，因为图神经网络对于建模图结构的数据有很好的效果。此外，除了关系三元组，还有一些方法引入实体属性、文本描述等了额外的信息来提高实体对齐的结果。但是现有的方法对于属性三元组的利用仍然存在两个缺陷。首先，这些方法都是在分开的网络中建模关系三元组和属性三元组，来自实体邻域和属性邻域的对齐信号仅仅被保留在他们自身的网络之中，而不能跨网络进行传播。其次，有些方法使用了预训练的词向量或者机器翻译等外部工具，这不仅使得最终的实体对齐结果依赖于工具本身的质量，还会增加模型的复杂度和训练开销。

发明内容

发明目的：针对上述现有方法存在的技术问题，本发明的目的在于提供一种基于双邻域图神经网络的医疗实体对齐方法及系统，能够有效利用属性信息，生成语义更加丰富的实体表示，并具有参数少、训练开销小、对齐结果准确性高等特点。

技术方案：为实现上述发明目的，本发明采用的技术方案为：

一种基于双邻域图神经网络的医疗实体对齐方法，包括以下步骤：

步骤1，从链接开放数据项目所存储的医疗知识图谱中，抽取医疗领域对齐的实体对以及相应的关系和属性，并对得到的数据进行预处理；

步骤2，将实体和属性建模在统一的网络中，通过关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接，使用图神经网络分别在实体邻域和属性邻域进行特征聚合，生成实体邻域特征和属性邻域特征，并使用门控机制进行特征整合以保持实体嵌入的维度不变；

步骤3，通过串联操作得到每一层的双邻域特征，并通过跳跃连接输出，生成全局感知的实体表示；

步骤4，根据两个实体在嵌入空间的距离计算相似度，对网络模型进行训练，并用训练完的模型预测源实体的目标实体。

进一步地，步骤1中具体过程包括：

步骤1-1，随机抽取不同医疗知识图谱中对齐的医疗实体对；

步骤1-2，抽取步骤1-1获得的实体的关系和属性信息，以关系三元组和属性三元组的方式存储；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。