[发明专利]一种面向知识图谱的联合实体消歧方法及系统在审
申请号: | 202210111600.X | 申请日: | 2022-01-29 |
公开(公告)号: | CN114492395A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 罗劲瑭;姚实颖;王进;徐杰;杨宇玄;陈一鸣;祝和春;高栋梁;曾鉴;张全明;倪江 | 申请(专利权)人: | 国网四川省电力公司经济技术研究院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F16/36;G06N3/08;G06N3/04 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 张杨 |
地址: | 610000 四川省成都市中国(四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 知识 图谱 联合 实体 方法 系统 | ||
1.一种面向知识图谱的联合实体消歧方法,其特征在于,包括如下步骤:
T1:对待消岐实体指称项进行消歧难易程度排序,确定系统消歧顺序,得到消歧任务序列;
T2:针对消歧任务序列中的实体指称项依次进行特征学习,包括局部特征和全局特征,得到适合消歧任务的复合特征数据集;
T3:构建动态实体消歧决策网络,以复合特征训练集、复合特征验证集为输入,训练动态实体消歧决策网络;
T4:以复合特征测试集为输入,通过训练好的动态实体消歧决策网络得到消歧决策策略,进行实体指称项的动态实体消歧。
2.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法,其特征在于,通过各实体指称项对应的所有候选实体的先验概率分布来判断步骤T1所述的消歧难易程度。
3.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法,其特征在于,步骤T1所述的各实体指称项的消歧难易程度计算方式为:
式中,Rj表示第j个实体指称项的消歧难易程度,Pi表示第j个实体指称项的第i个候选实体的先验概率,n表示第j个实体指称项对应的候选实体的个数,i和j为无具体定义的变量。
4.根据权利要求2或3任意一项所述的一种面向知识图谱的联合实体消歧方法,其特征在于,分别对多个选定网络语料库中的实体指称项超链接进行概率统计,将平均值作为候选实体的先验概率。
5.根据权利要求1所述的一种面向知识图谱的联合实体消歧方法,其特征在于,步骤T2所述的特征学习具体包括以下子步骤:
T21:采用word2vec模型对实体指称项的上下文信息、实体指称项对应候选实体的描述文本信息进行预训练,生成预训练向量;
其中,获得指定实体指称项的上下文信息c,c={c1,c2,...,ct},上下文字数的窗口大小为t;
获得指定实体指称项对应的第i个候选实体的描述文本信息wi,wi={wi1,wi2,...,wih},描述文本长度为h;
T22:采用Transformer模型对指定实体指称项的上下文信息、指定实体指称项对应候选实体的描述文本信息分别进行编码,获得上下文信息向量C和第i个候选实体的描述文本信息向量Wi,公式如下:
C=c'1,c'2,...,c’t=T(c1,c2,...,ct)
Wi=w’i1,w’i2,...,w’ih=T(wi1,wi2,...,wih)
其中,T表示Transformer模块;
T23:通过前馈神经网络f获得第i个候选实体的标准化向量生成指定实体指称项对应的候选实体集的向量矩阵其中,n为指定实体指称项对应的候选实体数量;
T24:采用softmax函数分别获得候选实体向量和已链接的实体向量对上下文向量的注意力系数矩阵,再与上下文信息向量C相乘,通过加权求和得到局部特征向量X1、全局特征向量X2;
T25:将局部特征向量X1和全局特征向量X2通过一个前馈神经网络f,与指定实体指称项对应的候选实体集的向量矩阵按列拼接,获得动态实体消歧决策网络的复合特征向量Einput。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司经济技术研究院,未经国网四川省电力公司经济技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210111600.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能乘务排班的方法及设备
- 下一篇:建立与非注册资源的基于音频的网络会话