[发明专利]基于节点影响力的重叠社区发现方法在审
申请号: | 201710168151.1 | 申请日: | 2017-03-21 |
公开(公告)号: | CN106951524A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 董宇欣;印桂生;张载熙;王红滨;杨楠;陈福坤;侯莎;兰方合;冯梦园;刘红丽 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 节点 影响力 重叠 社区 发现 方法 | ||
技术领域
本发明涉及一种重叠社区发现方法。
背景技术
在大自然界与人类社会中,有很多的真实的网络都可以被描述为复杂网络。例如信息流动的网络、生物界中的代谢系统网络与蛋白质网络。最常见的复杂网络就是用户个体及其之间关系(这种关系可能是亲属、同事、朋友等)形成的社会网络,简而言之,社会网络就是网络中的用户、用户与用户之间的关系构成的网络。人们都希望通过对其进行有效的、定量的数据挖掘与分析,能够揭示出隐藏在背后的信息与规律,这样极大地推进了社会网络的研究热潮。
随着研究的深入,人们逐渐发现了社会网络不仅具有小世界特性与无尺度特性,还具有网络簇结构特性。网络簇结构特性表明社会网络具有一定的社区结构,社区结构是一个团体,由一群相似的节点组成的,同一社区内部节点之间的连接较为紧密,不同社区之间的连接较为稀疏。这一特点符合人类行为的高聚集性与社会性,使得挖掘社会网络的社区结构成为近几年社会网络研究的一个重点与热点。
研究社区发现问题具有很多的现实意义,例如,在营销方法中,可以将用户划分为特定的社区,根据特定的社区进行特定的商品推荐,在一定程度上实现个性化推荐。这种推荐方式现在京东、淘宝等电子商务网站得到了广泛的应用,是社区营销的典型方法。另外,在视频网站中,同样可以针对特定社区进行广告的投放,能够节省资源,并为商家创造更高的利润额等等。
传统的节点影响力计算方法比较常用的主要有度中心性、介数中心度、紧密中心度、k-shell分解算法、PageRank算法、特征向量中心度等等。但是度中心性思想简单,算法效率高,但是度中心性主要刻画了节点的局部信息,忽略了节点在网络中的整体信息;介数中心度、紧密中心度、PageRank算法、特征向量中心度刻画了网络中的全局信息,但是算法时间复杂度较高,不适合大规模网络。本发明选择k-shell分解算法,k-shell分解算法思想简单,时间复杂度较低。
k-shell分解算法的主要思想如下:
遍历网络中的所有节点,去除网络中节点度为1的节点及其连边,考察剩下的节点,如果仍有度为1的节点,重复上面的操作,直至网络中不存在度为1的节点,把这些被去掉的节点处于1-shell,其ks值记为1。然后依次去除节点度小于或者等于2,3…k…的节点及其连边,直至网络中的所有节点都有ks值。
k-shell分解算法利用剥洋葱类似的思想,将网络中的节点划分成不同的层级。每个节点都拥有一个属于自己的ks值,就相当于在网络中拥有自己的层级位置。ks值大的节点在整体网络结构中的连通性与ks值小的节点相比要好,相比之下更加适合作为传播模型的传播源,所以这类节点相对于其他节点来说,越有可能是核心节点,其节点影响力可能越大,而且k-shell分解算法是遍历整个网络结构对节点赋予ks值,因此,k-shell分解算法成为能够度量节点的全局影响力的方法之一。
但是k-shell分解算法也存在一定的局限性:第一,k-shell分解算法得到的结果是一种粗粒化划分的结果。同一影响力数值的节点较多,节点影响力区分不大;第二,ks值衡量了节点在整体网络结构中的连通性,ks值高的节点的连通性较好,所以该节点的影响力有可能更大。但是还缺乏对节点局部信息的考虑,例如节点的度;第三,比照拓扑势的思想,若一个节点的邻居节点的地位越高,则该节点的地位越高,重要性越大。假设若某个节点的邻居节点的全局影响力与局部影响力越大,则说明了这些邻居节点在在网络中的地位越高,重要性越大,这样就相对增加了该节点本身的重要程度。所以,节点的影响力还应考虑的是邻居节点对该节点本身的影响力的贡献,k-shell分解算法缺乏了对邻居节点的贡献这方面因素的考虑。
在重叠社区发现算法中,启发式算法COPRA算法是一个较为经典的算法。其主要过程描述如下:
定义每个节点带有标签二元组(c,b),其中c表示节点所属的社区,b表示节点对该社区的归属系数,且节点的各个归属系数之和等于1。每个节点的归属系数计算公式(1)所示:
其中,bt(c,x)代表第t次迭代该节点x对社区c的归属系数,N(x)代表了节点x的邻居节点集合,算法具体流程如下:
(1)为网络中每一个节点x设置初始标签cx,设置该标签的归属系数为1,表示为(cx,1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710168151.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有撒料板的有机肥生产用粉碎装置
- 下一篇:一种农业用肥料高效粉碎设备