[发明专利]一种基于约简锚点的大规模知识图谱融合方法有效
申请号: | 201810780963.6 | 申请日: | 2018-07-17 |
公开(公告)号: | CN109033303B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 汪鹏 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约简锚点 大规模 知识 图谱 融合 方法 | ||
本发明提供了一种基于约简锚点的大规模知识图谱融合方法,包括:大规模知识图谱解析和预处理;约简集构造:计算两知识图谱实体间的语义描述文档相似度;确定正约简锚点和负约简锚点;混合匹配算法,根据约简锚点预测出后继匹配计算中大量无需计算的匹配位置;匹配结果抽取。本发明能有效处理实际应用中的大规模知识融合任务,具有良好的效果和性能。本发明无需在匹配过程中对大知识图谱进行划分,从而可以避免大知识图谱划分失效造成的语义信息损失,保证匹配结果的精确度和召回率,且具有和划分知识图谱而采用的分治方法同等的匹配效率。
技术领域
本发明属于人工智能技术领域,涉及一种知识图谱融合方法,更为具体的说,是涉及一种基于约简锚点的大规模知识图谱融合方法。
背景技术
过去十年中,知识图谱在知识表示和建模中起着举足轻重的作用。人们通过艰苦的努力,建立了很多描述通用知识的大规模知识图谱,并将其应用于机器翻译、信息检索和知识推理等应用中。与此同时,很多领域中的研究人员为了整合、归纳和分享领域内的专业知识,也建立了很多领域知识图谱。这些知识图谱的规模正随着人类知识的增长而变得越来越大。近年来,不同领域知识的交叉和基于不同大规模知识图谱的系统间的交互都提出了建立大规模知识图谱间融合的需求。然而,多数融合系统不仅无法在用户可接受的时间内给出满意的融合结果,而且还往往会由于匹配过程申请过大的内存空间而导致系统崩溃。因此,大规模知识图谱融合问题对系统的时间复杂度、空间复杂度和匹配结果质量都提出了严峻考验,成为目前知识图谱融合研究中的一个挑战性难题。
在空间复杂度方面,在知识融合过程中,读入大规模知识图谱将占用相当一部分存储空间,随后的预处理、匹配计算和后处理均可能需要申请大量空间才能完成,这些步骤往往导致融合系统无法得到足够的内存空间而崩溃。在时间复杂度方面,知识图谱融合系统的执行时间主要取决于匹配计算过程。为了得到最佳匹配结果,匹配过程需要计算异构实体间的相似度,目前大多数知识融合系统的时间复杂度都是O(n2)(n为实体数目)。在融合结果质量方面,降低融合方法的时间复杂度和空间复杂度的同时有可能造成融合结果质量也降低。很多优秀的融合方法往往比较复杂,如果在处理大规模知识图谱融合时用简化的快速算法来代替,或者为了提高效率设置一些不能发挥算法优势的参数,都可能得不到满意的融合结果。一些算法采用分治的策略,将大规模知识图谱融合问题转换为多个小规模知识图谱融合问题,但分治的过程会将原本中相邻实体分割开,破坏某些实体语义信息的完整性,因此这部分位于边界位置的实体的匹配质量无法得到保证。
发明内容
为解决上述问题,本发明利用大规模知识图谱中的结构特点和匹配的区域性特点,提出了一种处理大规模知识图谱融合问题的方法。其中包含两种匹配算法:基于正约简锚点的匹配算法和基于负约简锚点的匹配算法。正约简锚点是根据层次结构确定,负约简锚点则根据匹配的区域性特点确定。知识图谱融合过程动态发现这两种约简锚点,并根据约简锚点预测出后继匹配计算中大量无需计算的匹配位置,从而实现高效知识融合。匹配算法中的相似度计算是独立进行的,本发明利用文本匹配器来计算相似度,并提出采用语义上下文快照来近似处理相似度计算中的全局分析问题。
为了达到上述目的,本发明提供如下技术方案:
一种基于约简锚点的大规模知识图谱融合方法,包括如下步骤:
1)大规模知识图谱解析和预处理:对输入的两个大规模知识图谱进行解析,获得后继匹配计算中需要用到的实体、实体层次和其它语义信息;
2)约简集构造:
a)首先计算两知识图谱实体间的语义描述文档相似度:
匹配过程中,高精确度的相似度计算能保证最终的匹配结果质量,对于每对实体的相似度计算,需要考虑其语义上下文,本发明采用社会化网络中的依赖性分析方法,通过判断实体周边三元组与实体的依赖程度,不断将依赖程度最大的三元组加入,直到满足规模要求为止,由此获得实体语义上下文的快照。得到实体的上下文快照后,便可抽取实体在此快照中的上下文子图,并进而构造实体的语义描述文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810780963.6/2.html,转载请声明来源钻瓜专利网。