[发明专利]一种基于顶点关联度的图数据布局方法在审
申请号: | 201810627678.0 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108959460A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 王芳;冯丹;易前旭;刘竞 | 申请(专利权)人: | 华中科技大学;深圳华中科技大学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 队列 关联度 重映射 数组 图数据 队列清空 操作完成 滑动窗口 数组计算 随机访问 应用执行 有效减少 行结构 最优点 遍历 稀疏 内存 邻居 压缩 转化 | ||
本发明公开了一种基于顶点关联度的图数据布局方法,包括:将图数据转化为压缩稀疏行结构,得到顶点关联度数组;从图数据中随机获取初始顶点加入初始队列,将初始顶点加入重映射数组;将初始队列中顶点的邻居列表加入层次队列;根据顶点关联度数组计算层次队列中各个顶点和滑动窗口中所有顶点之间的顶点关联度之和,将顶点关联度之和最大的顶点作为最优点加入重映射数组;判断是否层次队列中所有顶点都加入重映射数组,如果是则执行上一步,否则执行下一步;将初始队列清空,将层次队列中所有顶点加入初始队列,将层次队列清空,直至顶点重映射操作完成,得到最优重映射数组。本发明对于遍历式图,能够有效减少内存随机访问,缩短应用执行时间。
技术领域
本发明属于图计算的预处理技术领域,更具体地,涉及一种基于顶点关联度的图数据布局方法。
背景技术
近年来,随着移动互联网、物联网、云计算等迅猛发展,生活中无处不在的移动设备、无线传感器、RFID时时刻刻都在产生数据,其中大量的数据为非结构化数据,规模大、无规律,难以用传统的方法来处理,以图的模式对这些复杂数据进行建模分析变得越来越流行。随着图计算需求的增长,越来越多的图计算系统被开发利用,如Pregel、GraphChi、PowerGraph等等。图数据规模大且图应用往往是迭代式应用,图计算系统出于对负载均衡的考虑会将整个图结构划分为若干个子图,每个节点负责一个或多个子图的计算。然而,图计算具有高关联性、低局部性的特点,致使图算法运行过程中存在大量内存随机访问,CPU缓存命中率低。在当前计算机的多级存储结构下,存储器的随机访问带宽和顺序访问带宽相差一个数量级以上,毫无疑问,大量的内存随机访问会极大的影响图计算系统执行性能。而当前的图计算系统并没有对图数据做针对性的布局,致使单个计算节点的性能并不高。
针对上述图计算过程中存在的问题,目前普遍使用的图数据布局方法概括起来主要分为基于遍历的图数据布局策略和基于社区检测的图数据布局策略。其中基于遍历的图数据布局策略以BFS(见论文:Reordering very large graphs for fun&profit)算法为代表,它们以广度优先搜索算法BFS的执行结果为最终的图数据布局结果,这种布局策略简单可行,但是初始顶点的选取会极大的影响图数据布局结果。而基于社区检测的图数据布局策略以LPA(Label Propagation Algorithm,Complex Network Partitioning UsingLabel Propagation)算法为代表,它们在执行图数据布局的时候会首先执行图的社区检测操作,将图结构划分为关联性小的多个社区结构,然后再对每一个社区运行广度优先搜索算法BFS或者深度优先搜索算法DFS进行顶点的重映射。这种图数据布局策略往往时间开销很大,并且容易产生包含很多顶点的巨型社区,这对后续顶点的重映射操作影响很大。
综上,图计算过程中存在大量内存随机访问影响系统执行性能,当前众多图计算系统并没有针对这一问题提出CPU缓存友好的图数据布局策略,致使计算过程中缓存命中率低,内存带宽受限,系统执行性能不高。而存在的图数据布局策略往往忽略了顶点之间的关联性,对图计算系统的性能提升有限。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于顶点关联度的图数据布局方法,由此解决图计算系统中缓存命中率低、内存带宽受限、系统执行性能不高的技术问题。
为实现上述目的,本发明提供了一种基于顶点关联度的图数据布局方法,包括:
(1)将图数据转化为压缩稀疏行结构,根据压缩稀疏行结构得到顶点关联度数组;
(2)从图数据中随机获取初始顶点加入初始队列,将初始顶点加入重映射数组;
(3)将初始队列中顶点的邻居列表加入层次队列;
(4)根据顶点关联度数组计算层次队列中各个顶点和滑动窗口中所有顶点之间的顶点关联度之和,将顶点关联度之和最大的顶点作为最优点加入重映射数组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学;深圳华中科技大学研究院,未经华中科技大学;深圳华中科技大学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810627678.0/2.html,转载请声明来源钻瓜专利网。