[发明专利]基于ART树分布式系统图存储计算系统及其方法有效
申请号: | 201710033810.0 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106777351B | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 章成飞;张一鸣;李东升 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27;G06F16/182;G06F16/13 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陆薇薇 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 art 分布式 系统 图存 计算 及其 方法 | ||
本发明公开了一种基于ART树分布式系统图存储计算系统及其方法,其涉及分布式图计算技术领域,所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。
技术领域
本发明涉及分布式图计算技术领域,特指一种基于ART树分布式系统图存储计算系统及其方法。
背景技术
大规模图计算对从自然语言处理到社交网络等广泛的机器学习(machinelearning)和数据挖掘(data mining)应用都是至关重要的。人们已经对单机图计算模型进行了深入地研究,并且许多系统,例如GridGraph,GraphQ,GraphChi和X-Stream都已经达到了非常高的计算性能。目前,数据集规模的快速增长给单机模型带来了严峻的挑战,但同时它又促进了图并行系统的开发,例如Pregel,GraphLab,PowerGraph,GraphX和PowerLyra。
GraphX(d Gonzalez,Joseph E.,et al.“Graphx:Graph processing in adistributed dataflow framework.”11th USENIX Symposium on Operating SystemsDesign and Implementation(OSDI 14).2014.)和PowerGraph是点分割系统,通过分割顶点而不是子图之间的边来均匀地分配高维度点的边,点分割系统会将所有与顶点相关的边都放置到一起。Pregel(Malewicz,Grzegorz,et al.“Pregel:a system for large-scalegraph processing.”Proceedings of the 2010 ACM SIGMOD International Conferenceon Management of data.ACM,2010.)和GraphLab(Low,Yucheng,et al.“DistributedGraphLab:a framework for machine learning and data mining in the cloud.”Proceedings of the VLDB Endowment 5.8(2012):716-727.)是边分割系统,它们是通过切断子图之间的边来均匀地分配顶点。PowerLyra(Chen,Rong,et al.“Powerlyra:Differentiated graph computation and partitioning on skewed graphs.”Proceedings of the Tenth European Conference on Computer Systems.ACM,2015.)提出了混合分割的算法来分别处理低维度和高维度点,它包含了边分割和点分割系统的优点。
真实世界的自然图,例如社交网络和web等,都具有典型的倾斜幂率分布的特点,也就是倾斜幂率分布处的高维度顶点只是图中顶点的一个小的子集,但是它们会有大量的邻居结点。这种特点使得自然图在分布式环境下难以进行表示和分区。边分割系统是通过切断子图之间的边来均匀地分配顶点,但是对于高维度点,它将会造成计算和通信时的负载不均衡。点分割系统通过分割顶点而不是子图之间的边来均匀地分配高维度点的边,但是对于低维度点,这将会导致高的通信开销。混合分割系统的黑白哲学可能会导致相当数量的中维度点产生次优选择,由于很难确定精确的阈值,并且在无序的大规模图中,提前计算出顶点的维度(用来决定使用什么样的分割策略)是很耗时的过程,另外,差异化处理显著增加了系统设计的难度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710033810.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于卡口数据的以图搜图方法和装置
- 下一篇:数据访问方法及系统