[发明专利]一种基于知识图谱嵌入的链接预测方法有效
申请号: | 202110686675.6 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113360286B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 黄震;孙鼎;李东升;王艺霖;乔林波;汪昌健;徐皮克;陈易欣 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F40/295 |
代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 嵌入 链接 预测 方法 | ||
本发明公开了一种基于知识图谱嵌入的链接预测方法,目的是实现大规模知识图谱的快速链接预测。技术方案是先对知识图谱进行分区;然后构建嵌入模型和由N个服务器和共享文件系统组成知识图谱链接预测系统,训练时服务器作为主节点和训练节点,训练时服务器作为查询节点和预测节点,主节点安装有锁服务器进程,训练节点安装有数据加载进程和GPU训练进程;接着多机并行且CPU、GPU并行对嵌入模型进行分布式训练;最后N个服务器加载训练后的嵌入模型,对知识图谱链接进行并行预测;采用本发明既加快了知识图谱嵌入的训练和连接预测,又解决了分区造成的嵌入性能下降问题,能够快速获得高质量的知识图谱嵌入。
技术领域
本发明涉及知识图谱链接预测领域,具体涉及一种基于知识图谱嵌入的链接预测的方法。
背景技术
知识图谱(Knowledge Graph,KG)是真实世界信息的结构化表示,通常表示一个多关系图,即一个包含多种类型的节点和关系的图。KG由三个部分组成,实体集E,即现实世界中的事物,如人、地名、概念、药物、公司等的集合,例如“北京”就是一个实体;关系集R,即实体间的某种联系,例如“首都”关系表示一个实体是另一个实体的首都;三元组集T,表示事实,即实体间存在某种关系,例如三元组(北京,首都,中国),表示“北京是中国首都”这个事实。
虽然知识图谱包含大量三元组(事实),但人工输入所有的三元组是不可能的,因此知识图谱往往仍然存在着大量三元组缺失的问题。为了解决这个问题,知识图谱链接预测(linkprediction,LK)任务的目标根据已知的链接(三元组),自动预测实体之间的丢失链接。举例说明,给定一个缺失三元组(h,r,?)或(?,r,t),问号表示要缺失的实体,对于每一个缺失实体,链接预测任务使用所有的知识图谱中的实体作为候选项对三元组进行补全,然后预测补全后的三元组的有效性。
已有的研究采用知识图谱嵌入来处理链接预测问题。知识图谱嵌入将知识图谱中的每个实体和关系表示为低维向量(即嵌入),通过计算向量间的得分函数来判断三元组的有效性。嵌入模型的参数由实体嵌入向量和关系嵌入向量(或矩阵)组成,每个实体对应一个向量,每个关系对应一个向量(或矩阵)。
链接预测一般步骤如下:
1.构建嵌入模型。主要分为三步,表示实体、关系,定义得分函数,定义损失函数;表示实体、关系:嵌入模型的参数由实体嵌入和关系嵌入构成,目前已有的模型中,大多采用向量表示实体,使用向量或矩阵表示关系;得分函数:得分函数f(h,r,t)定义了如何使用实体和关系嵌入计算三元组(h,r,t)得分;损失函数:损失函数定义了使用三元组得分计算在训练数据集上的优化目标函数。
2.训练嵌入模型。以知识图谱中的三元组作为训练数据,通过梯度反向传播算法最小化损失函数来优化模型参数,得到嵌入模型;
3.使用嵌入模型进行链接预测。对输入的缺失三元组,使用训练好的嵌入模型快速预测有效三元组;例如:输入缺失三元组(h,r,?),以实体集E中所有实体作为候选实体,生成候选三元组{(h,r,t’)|t’∈E},计算所有候选三元组得分函数,以得分最高的三元组作为三元组预测结果,对应的{t’}即缺失实体预测结果。
虽然知识图谱嵌入是处理链接预测问题的有效方法,但是却很难直接扩展到工业级的知识图谱上,主要原因是知识图谱的规模越来越大,例如,脸书的知识图谱包含0.5亿实体,5亿三元组;微软的知识图谱包含20亿实体,550亿三元组;谷歌的知识图谱包含10亿实体,700亿三元组;百度的知识图谱包含千亿级三元组。大规模知识图谱的实体数量很大,造成了实体嵌入参数的规模很大,使得使用显卡对嵌入模型进行训练时导致显存不足,且时间过长。
为了解决这两个问题,Facebook提出的PBG(PytorchBigGraph)采取分区训练方法,将知识图谱嵌入模型训练放到多台计算机组成的计算集群上同时进行训练,从而减少对单个训练设备的显存要求同时缩短计算时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686675.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转子结构以及具有其的电机
- 下一篇:一种文秘用褶皱文件压平装置