[发明专利]一种并行社区发现方法和装置有效
申请号: | 201310096315.6 | 申请日: | 2013-03-25 |
公开(公告)号: | CN104077279B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 陆平;罗圣美;胡磊;王桥;林云龙;邹俊洋;钟齐炜;陆建 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 田红娟;龙洪 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 社区 发现 方法 装置 | ||
本发明公开了一种并行社区发现方法和装置,涉及数据挖掘领域。本发明公开的方法包括:读入原始社交网络数据,将其转换成邻接矩阵的形式并存储在HDFS文件系统上;在配置有Hadoop环境的计算集群上计算存储在HDFS上的图的邻接矩阵的度矩阵D和Laplacian矩阵;对Laplacian矩阵进行特征值和特征向量的并行Lanczos数值求解,得到矩阵前K个最大特征值对应的特征向量,并构造出特征向量矩阵进行归一化,得到规范化的特征向量矩阵并提取特征,将每行看作一个点,采用聚类方法将其聚类成K类;根据点的对应关系,将原来的社区中的个体等价地划为K类,完成社区的分类。本发明还公开了一种社区发现装置。本申请技术方案对于大规模数据具有良好的适应性。
技术领域
本发明涉及到数据挖掘领域,尤其涉及到大规模数据的并行计算和社交网络中的社区发现方案。
背景技术
社交网络由个体与个体之间的关系组成。个体通常包括个人、组织及其他社会实体,也可以表示网页、博客、邮箱、短信、论文和位置等等;社会关系一般包括朋友、亲属和同学关系等,也可以表示点击,关注,发送消息和引用等各种行为。
社交网络中存在社区结构,社区内部的个体之间关系紧密,社区之间的关系则不紧密。社区识别(又称社区发现)就是检测识别这些社区。社区发现可以作为定向推荐系统的基础、可以定位在类内部起关键作用的点、可以定位对类与类之间的连接起关键作用的点。也可以应用于路径搜索、关系预测、科学计算等问题。
目前在数据挖掘领域,社区发现问题主要转换成聚类问题。传统的如K-means聚类方法,是基于距离的算法,通过随机选取中心点计算个体和中心点之间的距离决定归属,再更新中心点,迭代直到中心点基本不变。但是这种方法在抽象个体转换成欧式空间点的时候没有一个合适的映射函数。而且在映射到欧式空间后,只能发现球形的社区,而不能发现月牙形等凹形的社区结构。
基于层次聚类的方法基于各节点间连接的相似性或强度,把网络划分为社区。该方法根据向网络中添加边还是从网络中删除边可以分为两类:凝聚方法和分裂方法。典型的凝聚聚类CNM算法,原理是基于贪婪思想对模块度进行优化。算法对内存和处理器的要求非常高,当数据规模很大的时候,单机根本无法处理。
谱聚类实现社区发现比一般的方法效果要好,因为谱聚类相当于实现了一个较好的抽象个体到空间点的坐标映射,但是其中的特征值和特征向量的数值求解是一个难题,因为计算瓶颈,现有的方法只能在小规模的数据上应用。
发明内容
本发明所要解决的技术问题是,提供一种并行社区发现方法和装置,以克服现有技术中存在的计算瓶颈问题。
为了解决上述技术问题,本发明公开了一种社区发现方法,包括:
读入原始社交网络数据,将其转换成邻接矩阵的形式并存储在HDFS文件系统上;
在配置有Hadoop环境的计算集群上计算存储在HDFS上的图的邻接矩阵的度矩阵D和Laplacian矩阵Lsym=I-D-1/2SD-1/2;
对所述Laplacian矩阵采用Haoop框架进行特征值和特征向量的并行Lanczos数值求解,得到矩阵前K个最大特征值I=λ1≥λ2≥…≥λK,其对应的特征向量表示成V1,V2,…,VK;
将所述特征向量V1,V2,…,VK排成一行,构造出特征向量矩阵并对其进行归一化,得到规范化的特征向量矩阵
对规范化的特征向量矩阵Y进行特征提取,将每行看作一个点,代表原来的抽象个体的欧式空间映射,采用简单基于距离的聚类方法将其聚类成K类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310096315.6/2.html,转载请声明来源钻瓜专利网。