[发明专利]基于主题实体语境迭代优化的全局实体链接方法在审
申请号: | 202110698612.2 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113360605A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 王杰;蔡健宇;张占秋 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/295 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 实体 语境 优化 全局 链接 方法 | ||
1.一种基于主题实体语境迭代优化的全局实体链接方法,其特征在于,包括:
步骤1,以预先训练好的主题实体迭代语境细化模型,对包含多个指称的文档和包含多个候选实体的知识图谱进行实体链接处理;
步骤2,所述主题实体迭代语境细化模型处理过程中,对知识图谱中每个指称的候选实体进行迭代优化打分,最终选择得分最高的候选实体作为实体链接的结果。
2.根据权利要求1所述的基于主题实体语境迭代优化的全局实体链接方法,其特征在于,所述主题实体迭代语境细化模型包括:
输入模块、局部上下文初始化模块、主题实体上下文迭代优化模块和输出模块;其中,
所述输入模块,与所述局部上下文初始化模块连接,能将包含n个指称(m1,m2,...,mn)的文档D和包含一组实体ε的知识图谱输入至所述局部上下文初始化模块,所述文档D中每个指称mi对应所述知识图谱中C个候选实体;
所述局部上下文初始化模块,与所述输入模块,能接收所述输入模块输出的文档D和知识图谱,通过计算所述文档D中每个指称mi与其对应的知识图谱中的每个候选实体ei之间的语义相似度作为每个候选实体ei的得分,并基于该得分进行初始的实体链接预测,得出初始实体链接预测结果;
所述主题实体上下文迭代优化模块,与所述局部上下文初始化模块连接,能利用所述局部上下文初始化模块输出的初始实体链接预测结果,根据成对性假设通过迭代优化的方式更新每个候选实体的得分;
所述输出模块,与所述主题实体上下文迭代优化模块连接,根据所述主题实体上下文迭代优化模块迭代完成后得到的每个候选实体的得分,对于每个指称取得分最高的候选实体作为输出的实体链接结果。
3.根据权利要求2所述的基于主题实体语境迭代优化的全局实体链接方法,其特征在于,所述局部上下文初始化模块通过以下公式求得指称mi的初始实体链接预测结果公式为:
其中,Ci表示指称mi的候选实体集合,函数Ψ(e,mi)用于计算候选实体e与指称mi之间的语义相似度。
4.根据权利要求2所述的基于主题实体语境迭代优化的全局实体链接方法,其特征在于,所述主题实体上下文迭代优化模块通过以下公式计算每轮迭代的每个候选实体的得分,公式为:
其中,mi为指称;t为迭代次数;ei,j为指称mi的第j个候选实体;表示实体ei,j与第k个指称mk在上一轮的实体链接结果之间的语义相似度得分;表示当前指称mi的主题实体上下文,为上一轮迭代后第k个指称mk所链接的结果。
5.根据权利要求1至4任一项所述的基于主题实体语境迭代优化的全局实体链接方法,其特征在于,采用以下方式对所述主题实体迭代语境细化模型进行训练,包括:
采用固定的迭代次数T,迭代T次后,用以下公式计算指称mi的第j个候选实体ei,j的得分μ(ei,j)为:
然后,通过公式ρ(ei,j)=g(μ(ei,j),p(ei,j|mi))将所述得分μ(ei,j)与先验得出p(ei,j|mi)结合,得到最终得分ρ(ei,j);
该主题实体迭代语境细化模型最终的损失函数为:
其中,h(mi,ei,j)为margin损失函数:训练的目标为:最小化最终的损失函数,即min L(θ)。
6.根据权利要求2至4任一项所述的基于主题实体语境迭代优化的全局实体链接方法,其特征在于,
所述局部上下文初始化模块采用双线性神经网络模型;
所述主题实体上下文迭代优化模块由基于指称-实体相似度与实体-实体相似度的双线性神经网络模型组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110698612.2/1.html,转载请声明来源钻瓜专利网。