[发明专利]一种面向知识图谱的联合实体消歧方法及系统在审
申请号: | 202210111600.X | 申请日: | 2022-01-29 |
公开(公告)号: | CN114492395A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 罗劲瑭;姚实颖;王进;徐杰;杨宇玄;陈一鸣;祝和春;高栋梁;曾鉴;张全明;倪江 | 申请(专利权)人: | 国网四川省电力公司经济技术研究院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F16/36;G06N3/08;G06N3/04 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 张杨 |
地址: | 610000 四川省成都市中国(四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 知识 图谱 联合 实体 方法 系统 | ||
本发明公开了一种面向知识图谱的联合实体消歧方法及系统,系统包括实体指称项排序模块、复合特征学习模块、候选实体决策模块;其中,实体指称项排序模块:用于对所有实体指称项进行消歧难易程度排序,确定系统消歧顺序,得到消歧任务序列;复合特征学习模块:用于对消歧任务序列中的实体指称项依次进行特征学习,包括局部特征和全局特征,形成适合消歧任务的复合特征数据集;候选实体决策模块:根据复合特征学习模块得到的复合特征数据集,用于构建和训练动态实体消歧决策网络,并通过动态实体消歧决策网络得到消歧决策策略,进行实体指称项的动态实体消歧。
技术领域
本发明涉及知识图谱与自然语言处理技术领域,尤其涉及一种面向知识图谱的联合实体消歧方法及系统。
背景技术
实体消歧是自然语言处理的关键问题,是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术。在知识图谱构建中,实体消歧即为:将待消歧文本集中的所有实体指称项一一关联到知识图谱中的对应候选实体。传统方法通常人工设置若干特征,运用机器学习方法对候选实体进行匹配。该类方法对特征依赖性较大,通用性也不高。
现有方法主要有基于深度学习的方法,用词嵌入方法提取实体指称项以及候选实体上下文词级别语义指称,利用深度学习方法提取实体指称项特征、候选实体特征,进而对候选实体进行排序,确定最终候选实体。其中,实体指称项特征包括局部特征、全局特征。局部特征是实体指称项上下文语义、句法、词义等特征描述,全局特征主要指待消歧实体指称项间的关联特性。这些方法中忽略了待消歧实体指称项消歧难易程度,缺乏对实体指称项间的依赖关系考虑。
发明内容
本发明提供了一种面向知识图谱的联合实体消歧方法及系统,根据待消岐实体指称项的消岐难易程度完成联合实体消岐,充分考虑了实体指称项间的依赖关系,具体通过下述技术方案实现:
一方面,本申请提供了一种面向知识图谱的联合实体消歧方法,包括如下步骤:
T1:对待消岐实体指称项进行消歧难易程度排序,确定系统消歧顺序,得到消歧任务序列;
T2:针对消歧任务序列中的实体指称项依次进行特征学习,包括局部特征和全局特征,得到适合消歧任务的复合特征数据集;
T3:构建动态实体消歧决策网络,以复合特征训练集、复合特征验证集为输入,训练动态实体消歧决策网络;
T4:以复合特征测试集为输入,通过训练好的动态实体消歧决策网络得到消歧决策策略,进行实体指称项的动态实体消歧。
在上述方案的基础上,进一步地有:
通过各实体指称项对应的所有候选实体的先验概率分布来判断步骤T1所述的消歧难易程度。
在上述方案的基础上,进一步地有:
步骤T1所述的各实体指称项的消歧难易程度计算方式为:
式中,Rj表示第j个实体指称项的消歧难易程度,Pi表示第j个实体指称项的第i个候选实体的先验概率,n表示第j个实体指称项对应的候选实体的个数,i和j为无具体定义的变量。
在上述方案的基础上,进一步地有:
分别对多个选定网络语料库中的实体指称项超链接进行概率统计,将平均值作为候选实体的先验概率。
在上述方案的基础上,进一步地有:
步骤T2所述的特征学习具体包括以下子步骤:
T21:采用word2vec模型对实体指称项的上下文信息、实体指称项对应候选实体的描述文本信息进行预训练,生成预训练向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司经济技术研究院,未经国网四川省电力公司经济技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210111600.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能乘务排班的方法及设备
- 下一篇:建立与非注册资源的基于音频的网络会话