[发明专利]一种基于块的子图构建及分布式图处理方法有效
申请号: | 201510988695.3 | 申请日: | 2015-12-24 |
公开(公告)号: | CN105590321B | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 王芳;程永利;冯丹;汪修能;张永选;戎佳磊;蒋子威 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06T11/20 | 分类号: | G06T11/20;H04L29/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 赵伟 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 构建 分布式 处理 方法 | ||
本发明公开了一种基于块的子图构建及分布式图处理方法,其子图构建方法,包括图分割、对子图中的顶点重新贴标签、将区间与数据片关联、分块和构建子图的步骤;采用启发式的、轻量级的SGP方法进行图分割,采用用户定义的启发式函数把顶点按顺序指派到P个子图,具有性能高,边的切割率较低的特点,并且可以兼顾子图工作负载平衡问题;其分布式图处理系统,块分割之后,子图之间以整个内存块为单位进行通信;与现有技术的细粒度通讯方式相比,本发明的基于内存块的数据交换,可以充分利用网络带宽,提高网络的利用率,降低通讯时间。
技术领域
本发明属于计算机大数据处理技术领域,更具体地,涉及一种基于块的子图构建及分布式图处理方法。
背景技术
在当前大数据背景下,呈现出越来越多的对大规模图数据进行分析、处理、挖掘的应用需求。近年来,研究人员提出了一些分布式图处理框架,例如Google公司的Pregel、卡内基梅隆大学的Distributed GraphLab和PowerGraph、斯坦福大学的GPS;这些分布式图处理框架大多采用随机分割的方法把顶点分布到集群的各计算节点上;在计算过程中,顶点通过消息传递的方式或直接访问分布式共享内存的方式实现交互。这种细粒度的交互方式带来了巨大的系统通讯开销;例如,GPS在执行PageRank图算法时,其通讯时间占到整个运行时间的95%。导致高通讯开销的主要原因是这种细粒度的通讯方式不能充分利用网络带宽。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于块的子图构建及分布式图处理方法,其目的在于降低分布式图处理的通讯开销。
为实现上述目的,按照本发明的一个方面,提供了一种基于块的子图构建方法,具体包括以下步骤:
(1)图分割:采用SGP(Streaming Graph Partition)方法,用启发式函数将顶点按顺序指派到P个子图;具体的,采用以下的启发函数把顶点u分配到子图i:其中,P>1;
其中,Ci是计算结点i的最大容量,K是子图的个数,是子图i在t时间的顶点集合,N(u)是顶点u的邻居集合;用于降低边的切割率,用于平衡子图间的工作负载;其中,容量是指能存放边的条数,0≤i≤P-1,u∈V,V为顶点的集合;
(2)对子图中的顶点重新贴标签:依次对P个子图的顶点贴标签,使之形成P个连续但不相交的区间(Interval);这种连续但不相交的区间带来有益效果是:对于给定的顶点,可以很直观地判断它属于哪个子图;
(3)将区间与数据片关联:每个区间关联一个数据片(shard);并将shard从0到(P-1)按顺序贴上标签;每个shard保存所有目标顶点在该区间范围内的边,边按其源顶点的顺序存放;
(4)分块:根据shard中边的源顶点所属的区间把一个shard分解成P个连续块;将块按顺序从0到(P-1)贴标签;每个块用B(x,y)来标识,x是块标签号,y是shard标签号;0≤x≤P-1,0≤y≤P-1;
(5)构建子图:由一个局部边块(LB)、(P-1)个远程入边块(RIB)和(P-1)个远程出边块(ROB)构建成一个子图;
子图s的(P-1)个远程入边块表示为B(i,s);(P-1)个远程出边块表示为B(p,j),0≤i≤P-1,s≠i,0≤j≤P-1;
每个远程出边块包含目标顶点在其它子图所有的边;每个远程入边块包含源顶点在其它子图所有的边;局部边块B(p,p)是一个特殊的块,该块所有边的源顶点和目标顶点都在区间p内;图分割时,边的切割率越低,局部边块B(p,p)越大,而其它(P-1)个出边块越小;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510988695.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型记录仪控制面板
- 下一篇:一种叠层纸张计数方法及装置