[发明专利]一种基于深度语义邻居和多元实体关联的协同消歧方法在审
申请号: | 202110257946.6 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112883199A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 钟将;贺紫涵;戴启祝;余尧 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06F40/242;G06N5/02;G06N3/04 |
代理公司: | 重庆鼎慧峰合知识产权代理事务所(普通合伙) 50236 | 代理人: | 徐璞 |
地址: | 400000 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 语义 邻居 多元 实体 关联 协同 方法 | ||
1.一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,包括以下步骤:
确定文本中的实体指称个数,生成实体指称集;确定每一个实体指称的上下文信息,基于映射字典为文档中每个实体指称生成候选实体集;
通过预训练获取文本中每一个单词以及相应候选实体的向量表示,并计算生成实体指称的向量表示;
计算实体指称和候选实体之间的字符串匹配度、上下文相似度,构建局部相似度特征;
结合候选实体的向量表示、实体指称的向量表示,基于深度语义信息提取文本中实体指称间的局部一致性特征,得到实体指称对应的邻接指称;
基于局部相似度特征、实体指称的候选实体集、邻接指称的候选实体集构建初始实体语义关联图;
将整个实体指称集划分为低歧义和高歧义两部分;
对于低歧义实体指称,从初始实体语义关联图中删除实体指称对应的映射实体以外的冗余候选实体节点和涉及的边,并从文档中选取低歧义实体指称的关键词作为节点引入到实体语义关联图中,与其映射实体节点建立边关系;对于高歧义实体指称,从候选实体描述页面中选择候选实体的关键词作为证据节点与相应的候选实体节点连接,形成新的边;得到最终实体语义相关图;
将局部相似度特征和最终实体语义相关图输入到基于图注意力网络的消歧模型中,对局部相似度特征以及全局特征进行聚合,输出每一个实体指称对应的映射实体。
2.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:通过窗口设置获取实体指称周围的文本得到每一个实体指称的上下文信息。
3.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:预训练使用word2vec模型,采用基于预训练词嵌入的实体嵌入方法。
4.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,所述局部相似度特征包括局部上下文相似度特征,所述局部上下文相似度特征包括词级相似度特征、句级相似度特征;提取所述局部上下文相似度特征按照以下步骤进行:
通过知识库获得实体指称的上下文和候选实体的文本表示;
根据实体指称的上下文和候选实体的文本表示,提取实体指称和候选实体的词级相似度特征;
基于双向长短期记忆神经网络模型提取实体指称和候选实体的句级相似度特征。
5.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,所述提取文本中实体指称间的局部一致性特征,包括:通过计算每一个实体指称与其他任意实体指称间的注意力权重,得到每一个实体指称对之间的语义关联度来表征局部一致性特征。
6.根据权利要求5所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,具体按照以下步骤得到每一个实体指称对之间的语义关联度:
将整个文档送入多层自注意力机制模型进行计算;
通过每个自注意力机制模型层对上下文信息和实体指称对之间的关联信息进行编码;
对实体指称的嵌入表示进行更新;
在多层自注意力机制模型的最后一层,将实体指称对之间的注意力权值进行归一化处理后输出,得到语义关联度。
7.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于:构建初始实体语义关联图时,将实体指称的候选实体集、与实体指称相对应的邻接指称的候选实体集作为初始节点,并在不同实体指称对应的候选实体之间建立边;候选实体作为节点,候选实体间的相关度作为边。
8.根据权利要求1所述的一种基于深度语义邻居和多元实体关联的协同消歧方法,其特征在于,在将整个实体指称集划分为低歧义和高歧义两部分时,具体如下:
设置准确度阈值;
当实体指称与某一候选实体之间的匹配准确度小于或等于准确度阈值时,定义为高歧义实体指称;
当实体指称与某一候选实体之间的匹配准确度大于准确度阈值时,定义为低歧义实体指称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257946.6/1.html,转载请声明来源钻瓜专利网。