[发明专利]社交网络的无偏延迟采样方法在审
申请号: | 201810689711.2 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108833211A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 刘良桂;陈炳宪;贾会玲;张宇 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 黄欢娣;邱启旺 |
地址: | 310018 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采样 延迟 社交网络 网络 采样网络 数据采样 重复数据 收敛 探测 概率 | ||
本发明公开一种社交网络的数据采样方法(无偏延迟采样),该方法遵循马尔科夫收敛准则,无偏采样方法可以适应不同网络连用程度的网络,一方面,无偏延迟方法有更好的采样网络无偏性,另一方面,无偏延迟采样方法可以减少重复数据的入样概率从而提高网络的探测能力。
技术领域
本发明涉及社交网络数据采样技术领域,具体涉及一种社交网络的无偏延迟采样方法(Unbiased-delay sampling,UD Sampling)。
背景技术
近年来,在线社交网路已经成为主要的互联网服务。社交网络的蓬勃发展吸引了大量的研究学者的关注,社会学家想要研究在线用户的用户行为,工程师利用社交网络设计更好的网络系统,科研人员研究这用复杂网络的结构及动态变化过程。
社交网络通常会模型化为社交图进行研究分析。研究者直接面临的问题就是社交网络的数据量太过庞大。首先,想要得到完整的数据集是不切实际的,因为抓取到如此庞大的社交图要耗费难以想象的时间,有些时候也是不可能的。与此同时,处理如此庞大的社交图,即使利用高性能计算机集群也需要大量的时间进行计算。其次,出于商业机密以及用户的私有设置,社交网络的完整数据也并不可获得。最后,社交网络的用户数量增长迅速并且用户间的关系会随时间改变,因此经典的大型网络并不能完全爬取。所以,如何在大型网络中抓取适量的样本,并保持原始网络的网络属性就成了社交网络研究的基础问题。
目前常用的网络采样技术,普遍上应用广度优先搜索算法进行数据采样。广度优先搜索算法虽然可以快速获取大量用户数据。然而在实际的生产中需要消耗大量资源设计去重队列,这样会大大减少数据的抽取效率。同时广度优先搜索算法是典型的网络的遍历算法,其算法抽取的数据会偏向高度的节点,从而该方法不能获取可靠的用户数据。
发明内容
为了解决现有社交网络数据抽取方案不能获取无偏数据以及需要设计去重队列的不足,本发明提供一种新颖的网络采样方法(无偏采样方法),从而可以获取更加可靠的无偏数据。
本发明采用如下技术方案:一种社交网络的无偏延迟采样方法,包括以下步骤:
(1)将真实的网络转化为图G=(E,V),E表示图中的边的集合,边表示真实网络下用户间的关系,V表示图中的节点的集合,节点表示真实网络下的用户。
(2)初始化采样集S,缓存空间Cache,将S和Cache置空;从V中随机选取一个节点v;然后按照如下步骤进行采样。
(3)探测节点v的10个邻居节点,对于邻居个数小于10的节点则探测其所有的邻居节点。将探测到的邻居节点存入缓存空间Cache中。
(4)在节点v的所有邻居节点中随机选择一个邻居节点w。判断Kv/Kw是否大于等于P,如果是,将邻居节点w作为当前节点v,并将节点w放入采样集S,然后返回至步骤3,如果不是,继续下一步骤。其中,P为随机数,P服从0-1均匀分布。Kv表示节点v的邻居节点个数,即节点v的度数。
(5)判断P是否小于等于重复采样的概率α,如果是,则保持当前节点v不变,然后返回至步骤3,如果不是,继续下一步骤。
(6)在缓存空间Cache中找出与当前节点v具有相同邻居数的所有被探测节点,从这些被探测节点中选择被探测次数最小的一个节点有多个相同被探测次数的节点取随机一个。将节点作为当前节点v,并将节点放入采样集,然后返回至步骤3。
进一步地,所述步骤5中,α=0.2。
本发明的有益效果是,第一,在独立的采样集上,网络的度分布属性更加接近原始网络特性。第二,避免了传统方法在高连通子网中低度节点过度入样的问题,并提高了方法对网络的探测能力。第三,在低采样率的情况下,其样本的传递性和同配性更接近原始网络的属性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810689711.2/2.html,转载请声明来源钻瓜专利网。