[发明专利]一种拓扑结构与节点属性综合分析的社区发现方法在审
申请号: | 201710852828.3 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107609983A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 朱培栋;张振宇;刘欣;冯璐;刘光灿;栾悉道;熊荫乔;王可 | 申请(专利权)人: | 长沙学院 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 湖南兆弘专利事务所(普通合伙)43008 | 代理人: | 谭武艺 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 拓扑 结构 节点 属性 综合分析 社区 发现 方法 | ||
技术领域
本发明涉及社交网络中社区结构的发现技术,具体涉及一种拓扑结构与节点属性综合分析的社区发现方法,适用于完备信息社交网络的社区发现。
背景技术
社交网络的社区发现对于理解网络功能、识别网络连接层次性及预测社交网络用户的复杂群体行为有着极其重要的基础性作用。
虽然对社交网络的研究人们已经完成了很多工作,但对于社区结构定义,目前还没有出现被广泛认可的统一定义,人们一般根据具体实际情况以及所采用的社区发现方法对社区结构有着各自的解释。较常用的定义有三类:(1)基于相对连接频数的社区结构:指对网络中的所有顶点进行分组,使得组内节点之间的连接稠密而组间节点之间的连接稀疏。(2)基于节点属性相似性的社区结构:指同社区内节点之间的相似度要大于一定的阈值,而节点属性与相似度计算方法根据具体的情况而定。(3)基于模型方法的社区结构:指通过定义和构造社区发现方法来对发现的社区进行隐式的定义,认为通过某种方法得到的社区发现结果就是其需要的社区,如渗透模型,随机游走模型,标签传播模型等。
从第一种定义着手,那些内部连接比较紧密的节点子集合对应的子图叫做社区,各社区节点集合彼此没有交集的称为非重叠型社区,有交集的称为重叠型社区。网络图中包含一个个社区的现象称为社区结构,社区结构是网络中的一个普遍特征。给定一个网络图,找出其社区结构的过程叫做社区发现。
社区发现问题属于NP难问题,就目前而言,还没有出现能同时满足高准确度和高时间效率的方法。现阶段出现的方法可分为两大类:基于全局的方法和基于局部方法。全局方法又可分为划分方法、随机游走方法、模块度方法、密度子图方法,其中,划分方法包括基于割的算法(KL算法、多级分割算法)、最大流算法、模块度方法(贪心算法、谱方法)、密度子图方法(枚举法、近似边界法);局部方法可分为基于模块度和基于密度两类,其中,基于模块度的有基于局部模块度的社区发现方法,基于密度的有基于密度的局部聚类方法和模拟退火方法。
从信息完备性角度,现有的一些经典社区发现方法,如GN算法、FastNewman算法、遗传算法、系派过滤法、纽带社区等,均只是基于网络拓扑结构进行社区发现。但是,社交网络节点往往蕴含丰富的属性信息,这些信息对社区结构的形成具有重要影响,目前带有节点属性的社区发现,如一种基于随机游走的边权值节点属性相似度NAS算法,一种衡量拓扑结构和节点属性的距离概念,边稳定稀疏模型,这些方法均将节点属性作为影响社区结构的因素进行了考虑,但均没有很好的解决拓扑结构和节点属性之间的相关关系,使其联合分析具有无可避免的产生相关性误差,同时,对两因素权值的讨论均采用了主观分析法。目前联合拓扑结构和节点属性的社区发现技术有待进一步深入分析。
可以看到,目前社交网络社区发现仍存在很多待解决问题,对于综合拓扑结构和节点属性的社区发现中的社区距离指标的选择还没有得到完善的解决,其中对于拓扑结构和节点属性两因子间的相关性影响、权重关系等均还没有得到妥善的处理方法,可以说,这正是目前多因素社区发现的技术难点。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种能够减小相关误差、降低赋权误差、增大社区距离可靠性、提高社区发现的准确性的
为了解决上述技术问题,本发明采用的技术方案为:
一种拓扑结构与节点属性综合分析的社区发现方法,实施步骤包括:
1)针对社交网络的节点的拓扑结构、节点属性两种因子分别进行单因子相似性分析,得到各因子的单因子初始社区距离集合;
2)针对各因子的单因子初始社区距离集合,分别基于Spearman相关系数进行去相关操作分别得到对应的单因子修正社区距离集合;
3)针对各因子的单因子修正社区距离集合,分别引入两度距离得到对应的单因子综合社区距离集合;
4)对各因子的单因子综合社区距离集合进行稳定性赋权计算社区距离指标矩阵L;
5)基于社区距离指标矩阵L从关系变换的角度基于模糊关系运算进行社区发现,得到社交网络对应的社区结构。
优选地,步骤1)中进行单因子相似性分析具体是指分别针对拓扑结构、节点属性两种因子计算节点之间的欧式距离,分别得到拓扑结构、节点属性两种因子的单因子初始社区距离集合。
优选地,步骤2)的详细步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙学院,未经长沙学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710852828.3/2.html,转载请声明来源钻瓜专利网。