[发明专利]一种基于深度语义邻居和多元实体关联的协同消歧方法在审
申请号: | 202110257946.6 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112883199A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 钟将;贺紫涵;戴启祝;余尧 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06F40/242;G06N5/02;G06N3/04 |
代理公司: | 重庆鼎慧峰合知识产权代理事务所(普通合伙) 50236 | 代理人: | 徐璞 |
地址: | 400000 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 语义 邻居 多元 实体 关联 协同 方法 | ||
本发明提供一种基于深度语义邻居和多元实体关联的协同消歧方法,包括以下步骤:生成实体指称集、候选实体集;获取候选实体、实体指称的向量表示;构建“实体指称‑候选实体”之间的字符串匹配度、上下文相似度局部特征;提取实体指称间的局部一致性特征得到邻接指称;基于局部相似度特征、实体指称及邻接指称的候选实体集构建初始实体语义关联图;将整个实体指称集划分为低歧义和高歧义两部分,基于此对实体语义相关图进行丰富更新;对局部相似度特征以及全局特征通过基于图注意力网络的消歧模型进行聚合,输出每一个实体指称对应的映射实体。本发明可以解决文档级别的实体消歧任务中存在的协同消歧计算成本高及实体的局部一致性问题。
技术领域
本发明涉及计算机自然语言处理技术领域,具体涉及一种基于深度语义邻居和多元实体关联的协同消歧方法。
背景技术
实体消歧(Entity Disambiguation,简称ED)是知识图谱构建、信息抽取、知识问答等多个计算机自然语言处理任务中涉及的关键技术。一般地,实体消歧在文本中的应用也叫作实体链接,用于将非结构文本中识别出的实体指称(mention)准确映射到指定知识库的具体实体条目(entity)。非结构文本中实体指称的识别,一般情况下是通过命名实体识别(NER)任务完成;具体的,实体消歧任务分为候选实体生成、消歧和不可链接预测三个模块。然而,在进行实体消歧任务中,实体存在的多样性表达方式;在不同的文本实例中,相同的实体指称可能指代不同的实体条目,或者同一个实体项在不同的文本语境中有着不同的表达形式,比如:在英文文本中,“Titanic”可以指代一个电影、一艘船或者一个沉船事故。如何准确地对这些实体项进行映射,是完成实体消歧任务的关键。
现有的研究工作中,消歧方法主要分为单实体消歧方法和协同消歧方法。单实体消歧方法着重于对指定实体指称的局部上下文与相关候选实体的描述信息进行相似度匹配;协同消歧方法是更进一步地考虑同一文档中待消歧的实体指称之间的关联性,认为同一个文档中所有实体指称对应的实体之间的存在一致性,或者具有同一个讨论主题。基于这一前提,协同消歧算法被提出。现有协同消歧算法的一般做法是通过将文档中存在的实体指称以及候选实体构建成实体语义关联图进行计算。然而这种实体指称间的联合推理机制同样也带来了一些问题:首先,实体的联合计算导致了昂贵的计算成本,特别是当实体图可能包含数百个节点的长文档时;其次,考虑全体实体指称的一致性假设过于绝对,更会不可避免地引入干扰因素,抗干扰能力弱。另一方面,对于一些具有高歧义的实体指称,其对应的候选实体之间也具有高度相似性,造成对具有高歧义的实体指称辨识能力差,这给整个消歧过程带来很大的挑战。
发明内容
针对现有技术存在的不足,本发明提出一种基于深度语义邻居和多元实体关联的协同消歧方法,以解决现有技术中存在的针对文档级别的实体消歧任务,存在协同消歧算法使用实体语义关联图进行计算时,计算成本高、抗干扰能力弱、对具有高歧义的实体指称辨识能力差的技术问题。
本发明采用的技术方案是,一种基于深度语义邻居和多元实体关联的协同消歧方法,包括以下步骤:
确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;
通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;
计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;
结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;
基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;
将整个实体指称集划分为低歧义和高歧义两部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257946.6/2.html,转载请声明来源钻瓜专利网。