[发明专利]一种用于知识图谱的实体对齐方法有效
申请号: | 201910968049.9 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110955780B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 赵翔;曾维新;唐九阳;徐浩;谭真;殷风景;葛斌;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 知识 图谱 实体 对齐 方法 | ||
1.一种用于知识图谱的实体对齐方法,其特征在于,包括以下步骤:
步骤1,获取两个知识图谱的数据;
步骤2,利用图卷积网络学习实体的结构向量;将实体的名字表示为词向量;
步骤3,计算实体的结构距离和词特征距离;
步骤4,并将两个距离融合综合距离以表示实体的相似程度;
步骤5,根据相似程度的计算结果进行实体识别对齐,获得相似实体对;
所述的两个知识图谱表示为,G1=(E1,R1,T1)和G2=(E2,R2,T2),其中E代表实体,R代表关系,代表图谱中的三元组,已知实体对表示为
所述的步骤2中利用两个两层图卷积网络,分别用来处理两个知识图谱数据并生成相应的实体结构向量;
步骤3中两个知识图谱的实体e1∈G1和e2∈G2在结构空间下所述的结构距离为Ds(e1,e2)=||e1-e2||l1/ds,ds为结构矩阵维度;
所述的词特征距离选用实体名的语义相似度,将平均词向量作为实体名向量,计算实体名向量在文本特征空间下的距离,具体地,所述的词特征距离为Dt(e1,e2)=||ne(e1)-ne(e2)||l1/dt,假设实体e名字中包含词语w1,w2,...,wp,那么实体名向量可表示为这些词向量的平均,即其中
进一步,通过词移距离模型计算所述的词特征距离,所述的词移距离模型用于衡量不同句子间的差异性,词移距离表示为实体中所有词的嵌入向量需要移动到达另一个实体中所有词的嵌入向量的最小距离值;
步骤4中所述的综合距离的融合公式为:
D(e1,e2)=αDs(e1,e2)+(1-α)Dt(e1,e2)
其中α是用来调整两种特征权重的超参数。
2.根据权利要求1所述的实体对齐方法,其特征在于,所述的图卷积网络,输入是实体的特征矩阵以及图的邻接矩阵A,输出是融入了结构信息的特征矩阵N代表图谱中节点的数目,而P和F分别代表输入和输出矩阵特征的维度,假设第l层的输入为节点的特征矩阵其中dl代表第l层特征矩阵的维度,对于第一层,H1=X,d1=P;
第l层输出为其中I为单位矩阵,为的对角矩阵,为第l层的参数矩阵,dl+1是下一层特征矩阵的维度,激活函数σ常被设为ReLU,对于最后一层,Hl+1=Z,dl+1=F。
3.根据权利要求2所述的实体对齐方法,其特征在于,初始的特征矩阵X从L2正则化的截尾正态分布中抽样得到,并通过GCN各层训练更新,进而充分捕捉知识图谱中的结构信息并生成输出特征矩阵Z;特征矩阵的维度一直设置为ds,P=F=dl=ds,而两个GCN在两层中共享特征矩阵W1和W2。
4.根据权利要求3所述的实体对齐方法,其特征在于,训练目标为最小化下述损失值:
其中[x]+=max{0,x},代表基于已知实体对(e1,e2),将e1或者e2替换成随机实体生成的负样本集合,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910968049.9/1.html,转载请声明来源钻瓜专利网。