[发明专利]一种用于知识图谱的实体对齐方法有效
申请号: | 201910968049.9 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110955780B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 赵翔;曾维新;唐九阳;徐浩;谭真;殷风景;葛斌;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 知识 图谱 实体 对齐 方法 | ||
本发明公开了一种用于知识图谱的实体对齐方法,包括以下步骤:获取两个知识图谱的数据;利用图卷积网络学习实体的结构向量,将实体的名字表示为词向量;计算实体的结构距离和词特征距离;并将两个距离融合综合距离以表示实体的相似程度;根据相似程度的计算结果进行实体识别对齐。本发明方法设计了一个融合结构特征和实体名特征的实体对齐基本框架;采用词移距离模型将前序对齐结果进行重排序,以充分挖掘实体名信息,提升实体对齐的准确性和时效性。
技术领域
本发明属于知识图谱数据处理领域,具体涉及一种用于知识图谱的实体对齐方法。
背景技术
近年来,涌现出一大批知识图谱(knowledge graph,KG),诸如YAGO,DBpedia,NELL,以及中文的CN-DBpedia,Zhishi.me等。这些大规模知识图谱在问答系统、个性化推荐等智能服务中起到重要作用。此外,为满足特定领域相关需求,衍生出越来越多的领域知识图谱,如医疗知识图谱。在知识图谱构建过程中,无法避免地需要在覆盖率和正确率间作权衡。而任何一个知识图谱,都无法达到完备或者完全正确。
为提升知识图谱的覆盖率及正确率,一种可行方法是从其它知识图谱中引入相关知识,因为以不同方式构建得到的知识图谱间存在知识的冗余以及互补。例如,从网页上抽取构建的通用知识图谱中可能仅包含药品的名字,而更多的信息可在基于医疗数据构建的医疗知识图谱中找到。为将外部知识图谱中的知识整合到目标知识图谱中,最重要的一步是对齐不同的知识图谱。为此,实体对齐(entity alignment,EA)任务被提出并受到广泛关注。该任务旨在找到不同知识图谱中表达同一含义的实体对。而这些实体对则作为链接不同知识图谱的枢纽,服务于后续任务。
目前,主流实体对齐方法主要借助知识图谱结构特征判断两实体是否指向同一事物。这类方法假设不同知识图谱中表达同一含义的实体具有类似的邻接信息。在人工构建的数据集上,这类方法取得了最好的实验结果。但最近一项工作指出,这些人工构建的数据集中的知识图谱比真实世界的知识图谱更加稠密,而基于结构特征的实体对齐方法在具有正常分布的知识图谱上效果大打折扣。
事实上,通过分析真实世界知识图谱中的实体分布可知,超过半数的实体只与一两个其它实体相连。这些实体被称为长尾实体(long-tail entities),占据了知识图谱实体的大部分,使得图谱整体呈现较高的稀疏性。这也符合对真实世界知识图谱的认知:只有很少一部分实体被经常使用并具有丰富的邻接信息;绝大部分实体很少被提及,包含微少的结构信息。因此,当前基于结构信息的实体对齐方法在真实世界数据集上的表现不尽人意。
发明内容
有鉴于此,本发明的目的在于提出一种用于知识图谱的实体对齐方法,所述方法克服现有技术中只采用实体的结构信息而进行实体对齐的不足,充分利用实体的结构信息以及实体名称信息,综合用于实体对齐,从而提升对齐的效能。
基于上述目的,本发明提供的一种用于知识图谱的实体对齐方法,包括以下步骤:
步骤1,获取两个知识图谱的数据;
步骤2,利用图卷积网络学习实体的结构向量;将实体的名字表示为词向量;
步骤3,计算实体的结构距离和词特征距离;
步骤4,并将两个距离融合综合距离以表示实体的相似程度;
步骤5,根据相似程度的计算结果进行实体识别对齐,获得相似实体对。
所述的两个知识图谱表示为,G1=(E1,R1,T1)和G2=(E2,R2,T2),其中E代表实体,R代表关系,代表图谱中的三元组,已知实体对表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910968049.9/2.html,转载请声明来源钻瓜专利网。