[发明专利]面向多源知识图谱融合的实体对齐方法、装置与系统在审
申请号: | 202110726190.5 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113641826A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 鄂海红;林学渊;宋文宇;宋美娜 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张梦瑶 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 知识 图谱 融合 实体 对齐 方法 装置 系统 | ||
1.一种面向多源知识图谱融合的实体对齐方法,其特征在于,包括:
提取知识图谱中实体的实体特征,根据所述实体的实体特征生成实体嵌入矩阵,并根据所述实体嵌入矩阵获取所述知识图谱的实体表示;
根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示;
根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵;
根据所述最终实体嵌入矩阵和数据集计算损失函数;
根据所述损失函数和实体的属性信息,采用双向全局过滤策略生成样本集,并根据所述样本集对神经网络模型进行迭代训练,使得训练后的神网络模型具有对齐和融合多个知识图谱的能力,其中,所述样本集包括迭代正样本集和迭代负样本集。
2.如权利要求1所述的面向多源知识图谱融合的实体对齐方法,其特征在于,还包括:
dropout网络和跨层highway网络;
其中,使用highway网络混合两种不同的实体嵌入矩阵,其中,
α=sigmoid(X(a)W+b),
X(out)=(1-α)X(a)+αX(b),
其中,X(a),X(b)是两个实体嵌入矩阵,X(out)是highway网络的输出,W和b分别是线性层的权重矩阵的偏置矢量,α是门控权重向量;
将所述highway网络的输出X(out)输入dropout网络,以得到混合特征,将所述混合特征输入到图注意力网络GAT,所述图注意力网络GAT输出为:
其中,是第l层GAT输出的实体ei的嵌入表示,是第l-1层GAT输出的实体ej′的嵌入表示,αij表示实体ei的相邻实体的注意力权重,a是可训练的参数向量,维数为2de×1,aT表示参数向量的转置,[*||*]表示拼接运算,exp(x)=ex,LeakyReLU是激活函数,LeakyReLU(x)=max(x,0)+0.01*min(x,0),Ni表示实体ei的所有相邻实体组成的集合。
3.如权利要求2所述的面向多源知识图谱融合的实体对齐方法,其特征在于,根据所述实体表示计算所述实体与所述相邻实体的关系信息,并根据所述关系信息增强所述实体表示,以得到所述知识图谱的完整实体表示,包括:
将每个关系rk的语义分为两部分,与头实体相关的部分和与尾实体相关的部分每个实体x的表示可以拆分为xh=x(PAN)Wh和xt=x(PAN)Wt,其中Wh,是权重矩阵,dr是关系嵌入维数,x(PAN)是来自原始聚合层输出的嵌入矩阵X(PAN)的实体嵌入;
采用所述图注意力网络GAT将实体信息传播到关系,
其中,是基于关系头语义的实体ei作为头实体的部分表示,是与头实体ei相关的关系列表,αik表示关系rk关于头实体ei的注意力权重;
从计算出和从计算出
使用所述Highway网络自动平衡和中的信息,并通过拼接获得ei的完整实体表示
4.如权利要求3所述的面向多源知识图谱融合的实体对齐方法,其特征在于,根据所述完整实体表示获取完整实体嵌入矩阵,根据所述完整实体嵌入矩阵获取最终实体嵌入矩阵,包括:
使用回响网络输出所述完整实体对应的完整实体嵌入矩阵X(EN),并输出所述最终实体嵌入矩阵
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726190.5/1.html,转载请声明来源钻瓜专利网。