[发明专利]基于Optane DIMM的大规模图嵌入训练方法及系统在审
| 申请号: | 202111415792.5 | 申请日: | 2021-11-25 |
| 公开(公告)号: | CN114118443A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 姚建国;陈悦 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/901;G06F9/50 |
| 代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 optane dimm 大规模 嵌入 训练 方法 系统 | ||
本发明提供了一种基于Optane DIMM的大规模图嵌入训练方法及系统,包括:原始图处理步骤:对原始图进行处理,生成DRAM能够加载的图数据;数据预处理步骤:将图数据根据特征进行两层图分割,将完整图拆分成子图,并存储在磁盘中,使得子图能够加载入GPU进行分区训练;图训练步骤:根据不同介质的访存特性,将训练所用的图数据存储在不同的物理介质中,根据训练过程中所依赖数据的不同特性来切割算法,采用CPU和GPU分工训练,平衡CPU计算、GPU计算以及CPU‑GPU通信三者的开销。本发明根据图的特性进行高质量的两层图分割,将大图转化为子图,存储在磁盘中,从而子图能够加载入GPU进行分区训练。
技术领域
本发明涉及计算机存储、计算机计算和深度学习技术领域,具体地,涉及一种基于Optane DIMM的大规模图嵌入训练方法及系统。
背景技术
图,如社交网络、单词共存网络和通信网络,广泛地存在于各种现实应用中。通过对它们的分析,我们可以深入了解社会结构、语言和不同的交流模式,因此图一直是学界研究的热点。
使用邻接矩阵的网络表示存在计算效率的问题,邻接矩阵A使用|V|×|V|的存储空间表示一个图,随着节点个数的增长,这种表示所需的空间成指数增长。同时,在邻接矩阵中绝大多数是0,数据的稀疏性使得快速有效的学习方式很难被应用。图嵌入学习是指学习得到网络中节点的低维向量表示,形式化地,图嵌入学习的目标是对每个节点v∈V学习一个实值向量其中κ<<|V|表示向量的维度。图和图嵌入数学定义如下:
图:图G(V,E)是顶点集V={v1,…,vn}和边集E的集合。eij∈E包含一个源顶点vi和一个目标顶点vj。对于加权图G,邻接矩阵W包含与每条边相关的非负权重Wij≥0。如果vi和vj没有连接,则Wij设置为0。对于无向加权图,总是有
图嵌入:给定一个图G(V,E)和预先定义的嵌入d的维数,一个图(节点)嵌入就是一个映射f:使得函数f保留了图G上定义的一些语义特征。图嵌入问题就是将整个图、子图或边映射到d维向量的问题。图嵌入的形象化表示如图1所示。
图嵌入技术是属于图分析和表示学习的一种技术。它的目的是在保持图结构的同时,将一个图表示为低维向量。作为一种简单有效的减少维数的方法,图嵌入已经得到了广泛的应用,被成功应用于节点分类、聚类、推荐、链接预测、网络可视化等领域。
图嵌入算法经常利用随机游走来度量相似性。随机游走也是一类输出敏感算法的基础,这类算法利用随机游走在输入图体积大小线性复杂度下计算局部结构信息。正是这种与局部结构的联系促使随机游走被作为从图中提取信息的基本工具。除了捕捉社区信息外,使用随机游走作为算法的基础,还有另外两个理想的特性。首先,本地探索很容易并行化。几个随机的步行者(在不同的线程、进程或机器上)可以同时探索同一图的不同部分。其次,依靠从短的随机游走中获得的信息,可以在不需要全局重新计算的情况下适应图结构中的小变化。我们可以用新的随机游走迭代更新学习的模型,从时间亚线性变化的区域到整个图。所以本发明利用随机游走作为基础,提取图特征。
在大数据时代,图的大小不断增加。例如,在社交网络中,节点的数量已经增加到十亿级,边的数量也增加到数百亿级。有效地处理这种规模的图仍然是一个挑战。对于拥有亿级别顶点的大型图,一般单节点服务器很难保证足够容量的DRAM 内存来支持服务。虽然现有的swap分区技术可以为机器构建出比物理内存更大的逻辑内存,但仍然很难达到TB级别的容量,并且受限于低磁盘访问速度,效率低下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111415792.5/2.html,转载请声明来源钻瓜专利网。





