[发明专利]一种面向知识图谱表示学习的分布式框架构建方法在审
申请号: | 202010023555.3 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111241301A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 马骏;张小旺;饶国政;冯志勇 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 知识 图谱 表示 学习 分布式 框架 构建 方法 | ||
本发明公开一种面向知识图谱表示学习的分布式框架构建方法,包括以下步骤:进行RDF三元组的数据映射,建立原始字符串型数据到整数类型ID的哈希映射,映射后的RDF三元组参与后续处理;将RDF三元组按照每个计算群组的计算能力进行置乱切分并且分配到各个计算群组中;之后随机生成一组向量作为初始化的表示模型,并对该表示模型进行逻辑上的切分,并将逻辑切分结果发送到每个计算群组中,然后计算群组的每个计算节点根据逻辑切分结果进行本地子模型的构建;采用自适应的方法,各个计算节点根据每一轮的随机采样结果,自动在相关的计算节点上完成所需表示模型向量的收集;分布式模型训练和分布式模型聚合。
技术领域
本发明涉及计算机科学技术与应用领域,具体来说,本发明提供了一种分布式学习框架来对大规模知识图谱进行知识表示学习的方法。
背景技术
知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。知识图谱数据使用RDF(Resource Description Framework)即资源描述框架进行表示,其具体的表现形式是RDF三元组(h,r,t),其中h表示头实体(主语),r表示关系(谓词),t表示尾实体(宾语),如图1所示。知识表示学习是面向知识图谱中实体和关系的表示学习。该技术通过将实体或关系投影到低维向量空间,可以高效地计算实体、关系及其之间的复杂语义关联,有效解决数据稀疏问题。这对知识获取、融合和推理等方面均具有重要意义。
知识表示学习模型中的Translating模型基本思路是将知识图谱中的关系看作是头实体与尾实体间的某种平移向量,其中具有代表性模型有TransE、TransH、TransR等。在每个三元组(h,r,t)中,TransE用关系r的向量lr看作头实体向量lh和尾实体向量lt之间的平移,即:lh+lr=lt,因此TransE定义了如下的损失函数即向量lh+lr和lt的L1或L2距离。
在分布式机器学习领域,常见的机器学习框架有Tensorflow等。其中Tenserflow是一个基于数据流编程(dataflow programming)的符号数学系统,其被广泛应用于各类机器学习算法的编程实现。Tenserflow的分布式架构是基于参数服务器模式,即有一组参数服务器ps节点作为全局参数的维护节点,并且有多个工作节点worker来进行数据的训练,worker从ps中拉取需要的参数,并每轮训练结束后将参数更新回送到ps节点。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺点:
(1)大规模知识图谱处理成本与效果:目前知识图谱的规模日趋扩大,在单机状态下运行的知识表示模型已经无法满足大规模知识表示学习的需求。当我们为了发掘更加丰富的语义关联,利用超大规模知识图谱来构建更大规模的知识表示模型时,在单机状态下无法构建超出单机内存限制的知识表示模型,并且单机的计算能力不足以在合理的时间内在大数据集上运行表示学习。例如TransE和其一系列拓展模型在进行表示学习的过程中需要花费大量的时间。在FB15k这个数据集下,需要花费78分钟来训练483142个三元组。据此推断,如果训练Freebase-rdf-latest这个拥有19亿个三元组的数据则需要花费大约212天,所以说现有知识表示学习模型进行训练的时间开销是巨大的。
(2)分布式计算的可拓展性和稳定性:现在大部分的分布式机器学习框架都是基于参数服务器模式(Parameter Server),这种模式需要一个中心节点来协调模型的聚合过程。并且当网络传输代价较大时,中心化模式容易在中心节点形成瓶颈,在网络连接情况比较差的时候尤为明显,其次中心化模式对系统的稳定性要求高,因为它要求中心节点能够稳定的聚合和分发模型,一旦中心节点出错,整个任务必然失败。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010023555.3/2.html,转载请声明来源钻瓜专利网。