[发明专利]社区发现并行化方法和系统、主节点和运算节点设备在审
申请号: | 201310096323.0 | 申请日: | 2013-03-25 |
公开(公告)号: | CN104077280A | 公开(公告)日: | 2014-10-01 |
发明(设计)人: | 陆平;罗圣美;胡磊;王桥;林云龙;邹俊洋;钟齐炜;居昱 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 田红娟;龙洪 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社区 发现 并行 方法 系统 节点 运算 设备 | ||
技术领域
本发明涉及社交网络系统中分析关系系统,尤其能够利用超大规模社交网络的海量交互信息完成社区发现的方案。
背景技术
在大型复杂网络中,往往存在着复杂的社区结构,比如社交网站或者论坛网站中存在着依据相似的社会背景或者兴趣爱好所组成的社会团体,万维网中存在着具有相似内容功能类似网站。如何根据社交网络中海量的人物交互关系或者网站间的链接数相似性,发现网络中的社区结构已经成为了数据挖掘领域的一个热点研究方向。
社区发现的目标就是根据网络中点与点之间的关系,自动的将网络划分为若干个社区,使得社区内的连接较为紧密,社区间的连接较为稀疏。Newman提出的模块度(Modularity)已经成为了一个广泛应用的社区发现系统的评价标准。目前流行的社区发现系统中基于凝聚思想的CNM算法的复杂度也有O(mdlogn),其中d为图的深度。我们可以发现传统的社区发现系统由于现在网络的规模越来越大,系统的每个步骤独立性不强,使得系统无法并行快速高效的满足社交网站社区发现的需求。
常见的并行计算的框架有MPI(Message-Passing Interface)和MapReduce。MPI是一种消息传递编程接口规范。消息传递指数据通过进程之间的协同从一个进程的地址空间传递到另一个进程,采用MPI模型的程序设计正是通过进程之间的这种消息传递来达到并行化的目的。MapReduce是Google提出的并行计算和数据处理的编程模型,采用MapReduce框架的程序需定义自身的Map函数与Reduce函数。Map阶段,Map函数产生键值对(key/value)。Reduce阶段,具有相同键(key)的键值对被传递到Reduce函数。MPI模型可以根据系统硬件配置修改并行化步骤,但是没有错误处理,任务调度的现成的封装,基于MapReduce的Hadoop框架数据的分布原理是封装好的,并没有根据硬件配置和系统需求进行优化。
发明内容
本发明所要解决的技术问题是,提供一种社区发现并行化方法和系统、主节点和运算节点设备,以提高社交网络社区发现系统对于大规模数据处理的效率。
为了解决上述技术问题,本发明公开了一种社区发现并行化方法,其包括:
链接强度计算模块根据社交网站数据库中用户的交互信息,计算网络中点与点的链接强度,得到能表示网络特性的有权图的稀疏表示并存储;
主节点将所存储的用户随机分为p个大小相等的社区,将p个社区对应的有权图的子图分别配置给p个运算节点,作为初始的社区划分的结果;
每个运算节点上配置相同的粗分类模块的任务,每个任务独立的完成处在对应的同一子图中的点的融合操作,以将运算节点上的子图划分成多个社区;
主节点上的社区融合模块根据所有运算节点的粗分类模块划分的b个社区之间的链接关系,再次进行融合操作,共得到k个社区,C(k)={c1,c2,…,ck},计算C(k)划分结果的模块度;
主节点上的任务合并模块将k个社区合并成为大小相似的p个社区,重新设置在p个运算节点上,重新经过各运算节点的粗分类模块划分以及主节点上的社区融合模块融合操作,直到整合操作后的k个社区的模块度小于阈值则停止迭代,此时得到的分类结果为社区发现的最终结果。
较佳地,上述方法中,每个运算节点上粗分类模块的任务独立的完成处在对应的同一子图中的点的融合操作的过程如下:
将子图中每个点看成独立的一个类别Ci={Vi},按照如下公式初始化两个点融合对全局模块度的贡献值,将得到的两类融合的贡献度插入到最大堆中;
ΔQij=wij/2m-2aiaj/(2m)2
其中,αi,αj表示第i和第j个点在整个社交网络中的度,wij表示两点间的链接强度;
在最大堆中寻找对全局模块度贡献最大的融合模式,将对应的两个类别进行融合,并根据如下公式更新与这两个类有关的所有融合模式的模块度贡献值,利用最大堆的更新操作,保证最大堆的数据结构不变:
当类别k和类别i,j都有连接时,模块度贡献值:ΔQ′jk=ΔQik+ΔQjk
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310096323.0/2.html,转载请声明来源钻瓜专利网。