[发明专利]基于主题实体语境迭代优化的全局实体链接方法在审
申请号: | 202110698612.2 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113360605A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 王杰;蔡健宇;张占秋 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/295 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 实体 语境 优化 全局 链接 方法 | ||
本发明公开了一种基于主题实体语境迭代优化的全局实体链接方法,包括:步骤1,以预先训练好的主题实体迭代语境细化模型,对包含多个指称的文档和包含多个候选实体的知识图谱进行实体链接处理;步骤2,所述主题实体迭代语境细化模型处理过程中,对知识图谱中每个指称的候选实体进行迭代优化打分,最终选择得分最高的候选实体作为实体链接的结果。该方法计算效率高,性能优异。
技术领域
本发明涉及自然语言处理和知识抽取领域,尤其涉及一种基于主题实体语境迭代优化的全局实体链接方法。
背景技术
实体链接(EL)任务旨在将文本中的指称(mention)链接至知识图谱中对应的目标实体。实体链接不仅是构建高质量的知识图谱的关键步骤,而且还可以应用于诸多其他任务,如信息提取、语义搜索、问答系统等。然而,由于自然语言的存在多对多的歧义性(一个指称可能在不同的语境中指代不同的实体,而一个实体也可在文本中以不同的指称出现),使得实体链接这项任务是极具挑战性的。
根据所利用的信息的粒度不同,实体链接可以被分为两类:局部模型(localmodels)与全局模型(global models)。其中,局部模型只使用每个指称的文本语境信息(即指称周围的词)进行实体链接;全局模型则进一步使用了文档级别的信息,它假设一个文档中所有指称所对应的目标实体都是主题一致的,即每一个指称的实体链接结果会影响同一文档内其他指称的连接结果。与局部模型相比,全局模型能够显著提升实体链接的性能。
尽管全局模型与局部模型相比带来了很大的性能提升,但在训练和推理阶段,它们往往要付出高昂的计算成本。这一局限性使得这些全局模型难以处理具有大量指称和候选实体的语料库。如以目前较知名的全局模型DeepED为例,它使用条件随机场(CRF)来建模主题一致性。这一方法的优势在于:1)在各个数据集上都能达到较高的性能;2)这一模型能够同时处理文档中的所有指称。然而,它的时间复杂度随候选实体的数量呈平方增长,这是因为DeepED需要计算两个任意指称的每对候选实体之间的一致性得分。为了克服这一局限性,目前的DCA模型将实体链接建模为一个序列决策问题,并采用强化学习(RL)方法求解,通过顺序地链接指称来建模主题一致性。在这些模型中,当前指称的实体链接决策只依赖于同一文档中在该指称前已经链接的那些实体。因此,它们的时间复杂性随着候选实体的数量成线性增长。然而,由于这些方法以顺序的方式处理文档中的指称,当处理包含大量指称的长文档时,这些模型非常耗时。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种基于主题实体语境迭代优化的全局实体链接方法,能解决现有将实体链接建模为一个序列决策问题再通过强化学习求解,所存在当处理包含大量指称的长文档非常耗时的问题,以及现有基于条件随机场(CRF)的方法所存在的时间复杂度过高的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种基于主题实体语境迭代优化的全局实体链接方法,包括:
步骤1,以预先训练好的主题实体迭代语境细化模型,对包含多个指称的文档和包含多个候选实体的知识图谱进行实体链接处理;
步骤2,所述主题实体迭代语境细化模型处理过程中,对知识图谱中每个指称的候选实体进行迭代优化打分,最终选择得分最高的候选实体作为实体链接的结果。
由上述本发明提供的技术方案可以看出,本发明实施例提供的基于主题实体语境迭代优化的全局实体链接方法,其有益效果为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110698612.2/2.html,转载请声明来源钻瓜专利网。