[发明专利]基于分布式系统的极大团枚举方法和装置在审
| 申请号: | 202011324463.5 | 申请日: | 2020-11-23 |
| 公开(公告)号: | CN114528439A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 潘敏佳;李荣华;田群;戴永恒;刘学谦 | 申请(专利权)人: | 电科云(北京)科技有限公司 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9038;G06F16/907 |
| 代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 宋教花 |
| 地址: | 100041 北京市石景山*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 分布式 系统 极大 枚举 方法 装置 | ||
本发明提供一种基于分布式系统的极大团枚举方法和装置,所述方法包括:基于无向无权图中顶点的属性或位置进行重新编号,使得属性或位置相近的节点编号相邻;将重新编号后的顶点集合按照编号分为多个连续的块;将多个连续的块分别分配给多个节点,使得每个节点对应一个块;确定无向无权图中各顶点的ID值;在主副本所在的节点和对应镜像副本所在的节点间进行信息传递,以使得各节点基于传递的信息获得各主副本的第一邻居列表,第一邻居列表包括ID比主副本ID大的主副本的邻居的列表;各节点获得各个主副本顶点的邻接表,基于获得的邻接表信息利用搜索树进行极大团的枚举。本发明考虑到了顶点的局部性等信息,减少了信息传递,提高了搜索效率。
技术领域
本发明涉及图计算技术领域,特别是涉及图的极大团枚举技术领域,尤其涉及一种基于分布式系统的极大团枚举方法和装置。
背景技术
近年来,随着信息技术的发展,各种大数据普遍存在实际应用中,例如:社交网络,Web网络,生物网络等等。这些各种各样的大数据系统可以表示为图。例如,Web网络是有超链接互联的网页构成的图;社交网络图中可将人作为顶点、他们的关系作为边;生物网络图中可将生物化学分子作为顶点、它们之间的反应作为边。从这些网络的图中提取出隐含的稠密子结构是网络分析中的一个基本问题,例如:从社交网络中挖掘出社交圈子,在Web网络中发现关键重要的网站,以及在生物网络找出蛋白络合物等等。目前人们在网络图挖掘的领域中提出了许多模型来提取网络中的稠密子图,其中比较经典的模型为极大团模型,极大团表示图中的极大完全图,也就是说每两个点之间都要有边相连。
由于目前要处理的图越来越大,越来越复杂,单机系统的算法已经不足以满足当前的图处理需求。现在主要有三种类型的算法来处理极大团枚举问题,第一种是线性的内存算法,第二种是线性的外存算法,第三种是分布式的并行算法。由于线性的内存算法和线性的外存算法计算比较慢,且不适用于大图,因此针对大的图,目前大多采用分布式的并行算法。但是很多现有的分布式并行算法要求在每台机器上各存储一份完整的图,还可能由于节点度数的差异存在负载不均衡的问题。针对这种情况,Yanyan Xu等人提出了一种基于mapReduce的分布式算法,该基于mapReduce的分布式算法系统中,需要有一台机器作为主节点(master),而其他都是从节点(worker)。在算法执行时,首先要赋予每个顶点互不相同的ID值,该ID值可以用多种方式来定义,如度数或degeneracy序等。在任意一个极大团里,必然有一个顶点拥有该团中最小的ID值,算法以此为理论基础,对每个顶点搜索以它为最小ID值的极大团。
这个算法一共分为两个阶段。第一阶段,进行数据分发阶段(map阶段),该阶段处理顶点的ID和邻接表信息,这是为了获得顶点v以及顶点v的邻居中ID值比顶点v大的那些顶点信息。主节点将任务分发给从节点,所有的从节点分别将自己活得的所有信息写进预先指定好的中间文件或者本地磁盘中等待下一步的操作。第二阶段,在节点上进行极大团的搜索(reduce阶段),从节点首先等待主节点分配任务,然后分别远程读取第一阶段中所存储下来的顶点信息,并利用它们来进行搜索。具体而言,以每个顶点v的ID,邻接表,以及ID比顶点v大的顶点的邻居顶点作为搜索的初始信息,通过搜索树来寻找极大团。其中,每个顶点通过只对比自己ID大的节点进行搜索来防止重复搜索,同时,算法通过一定的数据结构来记录已经搜索过并且可以加入当前团的顶点,用来判断当前团是不是极大的。
在整个算法运行的过程中,由主节点来负责整个算法的调度,它将顶点的任务简单地平分到每个从节点上。从节点无法直接进行信息交互,信息交互只发生在主节点和从节点之间,因此需要有一个主节点来进行资源的调度与管理,当处理算法的集群较小时,这会造成资源的浪费,且主节点的存在大大增加的系统的维护代价。
此外,该基于mapReduce的分布式算法需要进行大量的磁盘IO/远程拷贝,不利于实时计算,这常常还带来巨大的通信代价,在通信上占据较多的时间,且对带宽的要求较高。该算法的执行效率有待于进一步提高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电科云(北京)科技有限公司,未经电科云(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011324463.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:枪具以及训练系统
- 下一篇:一种基于区块链的考勤系统





