[发明专利]一种基于随机抽样的数据图流中的三角形计数方法及装置在审
申请号: | 201810499136.X | 申请日: | 2018-05-23 |
公开(公告)号: | CN108737185A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 王宏志;耿飞;万晓珑 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇;李亚东 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始数据图 计数方法及装置 计数结果 随机抽样 抽样 数据图 数据处理技术 数据量 算法 还原 统计 | ||
本发明涉及数据处理技术领域,提供了一种基于随机抽样的数据图流中的三角形计数方法及装置,该方法包括:对接收的原始数据图流中的边进行抽样得到子图,并计算存留比;对抽样获得的子图中三角形的数量进行统计;根据统计得到的子图中三角形的数量及所述存留比计算接收的原始数据图流中三角形数量。本发明通过对原始数据图流进行抽样得到子图,并根据子图的三角形计数结果还原原图的三角形计数结果,从而减少了处理的数据量,缩短了算法的执行时间。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于随机抽样的数据图流中的三角形计数方法及装置。
背景技术
随着互联网日益渗透到我们的生活中,数据的产生速度与数据量也与日俱增,甚至用“海量”、“爆炸性增长”等都不足以描述数据量的增大,然而我们处理数据的速度却没能吻合数据的增长速度,大数据中隐含的价值信息远远没有被我们所充分挖掘和利用。近些年来,互联网的研究趋势便是朝着能够处理海量数据的方向发展。并且,作为大数据的重要数据承载形式之一的数据流,越来越引发科研工作者以及企业的关注。
现实生活中,网站访问请求数据流、卫星回传的图像数据流、网络监测中的数据包流、股票证券的实时波动等等很多数据都是以数据流的形式存在,并且随着物联网的普及,数据流的数据量级将会提高几个数量级,这对数据的实时处理的要求是极大的考验。所以数据流挖掘的研究,在现实当中可以找到很多应用场景,对数据流的研究可以极大的推动相关产业的发展,提高企业生产效率、科研数据分析效率以及广大居民的生活质量等。
三角形分析,在图数据分析上是一个有趣的问题,同时也是一个比较传统的问题,在社交网络上的应用尤为广泛。例如,在社交网络中,A与B、C互相认识,而B与C也是互相认识的两个人,那么A、B和C三者就构成了一个三角形。类似的,如果一个社交网络中,拥有越多的三角形,那么这个社交网络中人员的联系也就越紧密。本发明所针对的抽象问题,便是计算一个数据图流中的三角形数目。
三角形计数问题已有很多解决方案,但都是针对小规模数据的精确算法,针对海量数据流的解决方案现在还少之又少,且计数准确性有待提高。
发明内容
本发明要解决的技术问题在于,针对现有缺乏对于海量数据流的三角形计数方法的缺陷,提供了一种基于随机抽样的数据图流中的三角形计数方法及装置。
为了解决上述技术问题,本发明提供了基于随机抽样的数据图流中的三角形计数方法,包括:
1)对接收的原始数据图流中的边进行抽样得到子图,并计算存留比;
2)对抽样获得的子图中三角形的数量进行统计;
3)根据统计得到的子图中三角形的数量及所述存留比计算接收的原始数据图流中三角形数量。
可选地,所述步骤1)包括:
采用蓄水池抽样方法对接收的原始数据图流中的边进行抽样后,通过以下公式计算存留比α:
其中m为截止到接收窗口一共接收的边的总数量,k为蓄水池抽样方法抽取的子图中边的数量。
可选地,所述步骤3)中通过以下公式计算接收的原始数据图流中三角形数量N:
N=nα3
其中,n为统计得到的子图中三角形的数量。
可选地,所述步骤2)中采用重节点方法统计子图中三角形的数量,包括以下步骤:
对于子图的重节点集合中的任意三个顶点组合vi,vj,vk,判断是否构成三角形且vi<vj<vk,是则三角形计数加1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810499136.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种容灾系统的管理方法和装置
- 下一篇:一种内网安全态势感知方法