[发明专利]一种信息网络上的社区发现方法和系统在审
申请号: | 201310239201.2 | 申请日: | 2013-06-17 |
公开(公告)号: | CN103327092A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 徐冰莹;贾焰;杨树强;周斌;韩伟红;李爱平;韩毅;李莎莎 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息网络 社区 发现 方法 系统 | ||
技术领域
本发明涉及复杂网络分析和数据挖掘领域,特别涉及一种信息网络上的社区发现方法和系统。
背景技术
在信息网络上进行社区发现不仅可以帮助人们对网络的社会性和知识性做出评估,也可以研究对某个方面感兴趣的用户的组成形式。该领域已经吸引了来自社会学、物理学以及计算机科学等各个不同学科领域的科研工作者。最近一些年来,已有大量关于社区发现方法的文献,然而鉴于稳定性的问题,其中仅仅一小部分算法适用于大规模的超过百万、上亿节点的现实网络上的社区发现。
一个重要的进步是Raghavan等人于2007年提出的通过简单的标签传播算法(LPA)挖掘大规模网络中的社区结构,Tibely和Kertesz等人证明了标签传播算法等价于zero-temperature kinetic Potts model并证明了标签传播算法在社区发现上的有效性。Lovro Subel等人通过社区扩展和社区防御方法进一步提高了标签传播算法的准确率,并且在实际网络上验证了该算法的时间复杂度是接近线性的,其平均复杂度为O(m1.19),其中m是网络的边数;以及,通过设定节点的更新顺序提高了算法的稳定性和效率。在应用上,Yang Yang等人将标签传播算法用于新浪微博上的网络社区结构分析。
标签传播算法通过多次循环(迭代)来进行社区发现,基本步骤可描述如下:
1)、初始化节点的标签,例如可将用户的编号当作节点的初始标签值(本文中标签值有时简称做标签);
2)、为网络中的所有节点指定一个随机的处理顺序,按照该顺序取相应的节点进行处理;
3)、对于节点n,将其在第t轮循环的新标签表示为Cn(t),其中Cn(t)返回节点n的邻居节点标签中出现频率最高的标签,作为节点n在该轮循环中的新的标签。可以通过下式来表示Cn(t):
其中,Nl(n)表示节点n的邻居节点中标签为l的节点集合。
如果出现频率最高的标签的数量不止一个,则随机选择其中一个标签作为节点n的标签的更新值;
4)、当所有节点或者大部分节点的标签与上次迭代结果相比不再变化,则算法结束,具有相同标签的节点会被划入到同一个社区;否则进入第t+1轮循环,重新执行步骤2)。
标签传播算法已被证明是大规模复杂网络上社区发现的有效方法,尽管已有很对多针对原始标签传播算法的改进版本,如考虑了节点度的标签传播算法(LPAA)等,但是该算法的鲁棒性问题一直未被解决,节点标签的随机更新策略以及存在多个候选标签时的随机选择策略影响了该算法的鲁棒性,即社区发现结果具有不稳定性,从而导致结果差异性比较大。因此,如何提高社区发现结果的稳定性,已成为当前亟待解决的问题。
发明内容
根据本发明的一个实施例,提供一种信息网络上的社区发现方法,包括:
步骤1)、随机生成网络中所有节点的更新顺序;
步骤2)、按照步骤1)生成的更新顺序对待更新节点计算其邻居节点标签的标签影响力,将标签影响力最大且在所有邻居节点标签的标签影响力总和中比重超过预定阈值的标签加入更新候选标签集合,根据所述更新候选标签集合对所述待更新节点进行处理;其中,待更新节点的邻居节点包括所述待更新节点,标签影响力体现具有该标签的邻居节点影响力以及具有该标签的邻居节点与所述待更新节点之间的边的权值;
步骤3)、如果在步骤2)中更新了标签的节点数目小于预定数目,则执行步骤4);否则重新执行步骤1)随机生成更新顺序,并且重新执行步骤2)按照新生成的更新顺序对节点进行处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310239201.2/2.html,转载请声明来源钻瓜专利网。