[发明专利]一种面向知识图谱的联合实体消歧方法及系统在审

申请号：	202210111600.X	申请日：	2022-01-29
公开（公告）号：	CN114492395A	公开（公告）日：	2022-05-13
发明（设计）人：	罗劲瑭;姚实颖;王进;徐杰;杨宇玄;陈一鸣;祝和春;高栋梁;曾鉴;张全明;倪江	申请（专利权）人：	国网四川省电力公司经济技术研究院
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/30;G06F16/36;G06N3/08;G06N3/04
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	张杨
地址：	610000 四川省成都市中国（四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向知识图谱联合实体方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向知识图谱的联合实体消歧方法及系统，系统包括实体指称项排序模块、复合特征学习模块、候选实体决策模块；其中，实体指称项排序模块：用于对所有实体指称项进行消歧难易程度排序，确定系统消歧顺序，得到消歧任务序列；复合特征学习模块：用于对消歧任务序列中的实体指称项依次进行特征学习，包括局部特征和全局特征，形成适合消歧任务的复合特征数据集；候选实体决策模块：根据复合特征学习模块得到的复合特征数据集，用于构建和训练动态实体消歧决策网络，并通过动态实体消歧决策网络得到消歧决策策略，进行实体指称项的动态实体消歧。

技术领域

本发明涉及知识图谱与自然语言处理技术领域，尤其涉及一种面向知识图谱的联合实体消歧方法及系统。

背景技术

实体消歧是自然语言处理的关键问题，是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术。在知识图谱构建中，实体消歧即为：将待消歧文本集中的所有实体指称项一一关联到知识图谱中的对应候选实体。传统方法通常人工设置若干特征，运用机器学习方法对候选实体进行匹配。该类方法对特征依赖性较大，通用性也不高。

现有方法主要有基于深度学习的方法，用词嵌入方法提取实体指称项以及候选实体上下文词级别语义指称，利用深度学习方法提取实体指称项特征、候选实体特征，进而对候选实体进行排序，确定最终候选实体。其中，实体指称项特征包括局部特征、全局特征。局部特征是实体指称项上下文语义、句法、词义等特征描述，全局特征主要指待消歧实体指称项间的关联特性。这些方法中忽略了待消歧实体指称项消歧难易程度，缺乏对实体指称项间的依赖关系考虑。

发明内容

本发明提供了一种面向知识图谱的联合实体消歧方法及系统，根据待消岐实体指称项的消岐难易程度完成联合实体消岐，充分考虑了实体指称项间的依赖关系，具体通过下述技术方案实现：

一方面，本申请提供了一种面向知识图谱的联合实体消歧方法，包括如下步骤：

T1：对待消岐实体指称项进行消歧难易程度排序，确定系统消歧顺序，得到消歧任务序列；

T2：针对消歧任务序列中的实体指称项依次进行特征学习，包括局部特征和全局特征，得到适合消歧任务的复合特征数据集；

T3：构建动态实体消歧决策网络，以复合特征训练集、复合特征验证集为输入，训练动态实体消歧决策网络；

T4：以复合特征测试集为输入，通过训练好的动态实体消歧决策网络得到消歧决策策略，进行实体指称项的动态实体消歧。

在上述方案的基础上，进一步地有：

通过各实体指称项对应的所有候选实体的先验概率分布来判断步骤T1所述的消歧难易程度。

在上述方案的基础上，进一步地有：

步骤T1所述的各实体指称项的消歧难易程度计算方式为：

式中，R_j表示第j个实体指称项的消歧难易程度，P_i表示第j个实体指称项的第i个候选实体的先验概率，n表示第j个实体指称项对应的候选实体的个数，i和j为无具体定义的变量。