[发明专利]一种用于知识图谱的实体对齐方法有效

申请号：	201910968049.9	申请日：	2019-10-12
公开（公告）号：	CN110955780B	公开（公告）日：	2022-10-14
发明（设计）人：	赵翔;曾维新;唐九阳;徐浩;谭真;殷风景;葛斌;肖卫东	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/295;G06N3/04;G06N3/08
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国
地址：	410003 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于知识图谱实体对齐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于知识图谱的实体对齐方法，其特征在于，包括以下步骤：

步骤1，获取两个知识图谱的数据；

步骤2，利用图卷积网络学习实体的结构向量；将实体的名字表示为词向量；

步骤3，计算实体的结构距离和词特征距离；

步骤4，并将两个距离融合综合距离以表示实体的相似程度；

步骤5，根据相似程度的计算结果进行实体识别对齐，获得相似实体对；

所述的两个知识图谱表示为，G₁＝(E₁,R₁,T₁)和G₂＝(E₂,R₂,T₂)，其中E代表实体，R代表关系，代表图谱中的三元组，已知实体对表示为

所述的步骤2中利用两个两层图卷积网络，分别用来处理两个知识图谱数据并生成相应的实体结构向量；

步骤3中两个知识图谱的实体e₁∈G₁和e₂∈G₂在结构空间下所述的结构距离为D_s(e₁,e₂)＝||e₁-e₂||_l1/d_s，d_s为结构矩阵维度；

所述的词特征距离选用实体名的语义相似度，将平均词向量作为实体名向量，计算实体名向量在文本特征空间下的距离，具体地，所述的词特征距离为D_t(e₁,e₂)＝||ne(e₁)-ne(e₂)||_l1/d_t，假设实体e名字中包含词语w₁,w₂,...,w_p，那么实体名向量可表示为这些词向量的平均，即其中w_i是w_i的词向量，d_t是名字向量矩阵维度；

进一步，通过词移距离模型计算所述的词特征距离，所述的词移距离模型用于衡量不同句子间的差异性，词移距离表示为实体中所有词的嵌入向量需要移动到达另一个实体中所有词的嵌入向量的最小距离值；

步骤4中所述的综合距离的融合公式为：

D(e₁,e₂)＝αD_s(e₁,e₂)+(1-α)D_t(e₁,e₂)

其中α是用来调整两种特征权重的超参数。

2.根据权利要求1所述的实体对齐方法，其特征在于，所述的图卷积网络，输入是实体的特征矩阵以及图的邻接矩阵A，输出是融入了结构信息的特征矩阵N代表图谱中节点的数目，而P和F分别代表输入和输出矩阵特征的维度，假设第l层的输入为节点的特征矩阵其中d^l代表第l层特征矩阵的维度，对于第一层，H¹＝X，d¹＝P；

第l层输出为其中I为单位矩阵，为的对角矩阵，为第l层的参数矩阵，d^l+1是下一层特征矩阵的维度，激活函数σ常被设为ReLU，对于最后一层，H^l+1＝Z，d^l+1＝F。

3.根据权利要求2所述的实体对齐方法，其特征在于，初始的特征矩阵X从L2正则化的截尾正态分布中抽样得到，并通过GCN各层训练更新，进而充分捕捉知识图谱中的结构信息并生成输出特征矩阵Z；特征矩阵的维度一直设置为d_s，P＝F＝d^l＝d_s，而两个GCN在两层中共享特征矩阵W¹和W²。

4.根据权利要求3所述的实体对齐方法，其特征在于，训练目标为最小化下述损失值：

其中[x]₊＝max{0,x}，代表基于已知实体对(e₁,e₂)，将e₁或者e₂替换成随机实体生成的负样本集合，e代表实体e的结构向量，γ代表将正负样本分隔的端距，采用随机梯度下降进行模型优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910968049.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于层次默克尔哈希树的轻型动态数据完整性审计方法
下一篇：适配扫描设备的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于知识图谱的实体对齐方法有效

专利文献下载