[发明专利]一种面向领域知识图谱的实体对齐方法在审
| 申请号: | 202310517542.5 | 申请日: | 2023-05-09 |
| 公开(公告)号: | CN116578654A | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 宋胜利;来成恩;李晓旭;胡光能 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/901;G06F18/22;G06N3/045;G06N5/02 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 罗强 |
| 地址: | 710071 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 领域 知识 图谱 实体 对齐 方法 | ||
1.一种面向领域知识图谱的实体对齐方法,其特征在于,包括:
基于预训练词向量和预训练语言模型分别对知识图谱的实体名称和属性三元组进行建模,基于平移距离模型对知识图谱的关系进行建模,获取实体初始嵌入、属性嵌入以及关系嵌入,对初始实体嵌入、属性嵌入以及关系嵌入进行集成得到联合嵌入表示;
通过领域判别进行领域采样并生成中心实体的领域子图,通过计算领域子图相似度,获领域匹配嵌入,通过邻域子图匹配嵌入与联合嵌入表示,完成实体对齐。
2.根据权利要求1所述的面向领域知识图谱的实体对齐方法,其特征在于,采用多层GCN网络聚合实体的相邻结构信息,使用预训练词向量得到实体初始嵌入,进而对GCN网络进行初始化;GCN网络每一层的输入为前一层GCN输出的一组节点特征。
3.根据权利要求2所述的面向领域知识图谱的实体对齐方法,其特征在于,所述GCN网络每层节点更新方法为:
其中,W(l)∈Rd(l)*d(l)是分层可训练结构矩阵,A表示邻接矩阵,I是单位矩阵,D是节点的度矩阵,Hl为GCN网络第l+1层的输入;GCN网络第一层的输入是节点特征矩阵其中n表示实体数目,d(1)代表GCN第1层的特征数。
4.根据权利要求1或2所述的面向领域知识图谱的实体对齐方法,其特征在于,所述属性嵌入获取方法为:获取知识图谱中实体及其属性三元组,进而确定属性集合和属性值集合,采用BERT提取属性和属性值的特征,并通过图注意力网络对属性和属性值进行区分,根据注意力分数获得加权平均值,得到属性嵌入。
5.根据权利要求4所述的面向领域知识图谱的实体对齐方法,其特征在于,所述关系嵌入获取方法为:获取知识图谱中关系三元组集合,利用头实体初始嵌入和尾实体初始嵌入计算得到关系的多个嵌入表示,再获取到多个嵌入表示距离最小的向量,该向量即为关系初始嵌入表示。
6.根据权利要求5所述的面向领域知识图谱的实体对齐方法,其特征在于,通过计算两个知识图谱的关系嵌入的相似性,统计得到头尾实体集合中预对齐的实体。
7.根据权利要求5所述的面向领域知识图谱的实体对齐方法,其特征在于,所述联合嵌入表示的获取方法为:将初始实体嵌入和属性嵌入作为输入,通过选择加权加法产生联合实体嵌入;接着将联合实体嵌入和关系嵌入作为输入,通过选择均值产生最终的联合嵌入表示。
8.根据权利要求7所述的面向领域知识图谱的实体对齐方法,其特征在于,所述领域判别的具体方法为:
对于知识图谱的一个中心实体,计算其单跳邻居的采样概率并完成采样;
根据采样结果构造新的领域网络形成领域子图;
为中心实体生成候选实体集,其中候选实体集中实体来自于另一知识图谱;
计算中心实体与候选实体之间的领域子图相似性,获得领域子图匹配信息;
将中心实体的联合嵌入表示和领域子图匹配信息进行链接,生成最后用于实体对齐计算的目标嵌入。
9.根据权利要求8所述的面向领域知识图谱的实体对齐方法,其特征在于,所述单跳邻居的采样概率计算方法为:
其中,hi和hi-j分别是实体ei和ei_j的联合嵌入表示,Ni是中心实体ei的单跳邻居索引,Ws是共享权重矩阵。
10.根据权利要求8所述的面向领域知识图谱的实体对齐方法,其特征在于,所述实体对齐的方法为:计算两个实体的目标嵌入之间的距离来决定两个知识图谱中的实体是否应该相互对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310517542.5/1.html,转载请声明来源钻瓜专利网。





