[发明专利]基于海量数据分析挖掘CDN域名的方法有效
申请号: | 201711367377.0 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108090188B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 丁煜;李超;罗龙楷;马雪;陈思;毕慧;郭承青;郑彩娟;于淼;王中华 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 数据 分析 挖掘 cdn 域名 方法 | ||
1.一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:
步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;
步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;
步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:
步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;
步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过,获取通过判断的{HOST域名,服务IP}数据;否则判定HOST域名为未使用CDN服务;N为正整数;
步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;
步骤305,将所述通过判断的{HOST域名,服务IP}数据,和所述疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;
步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;
步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;
步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;
步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;
步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1进行HOST域名提取,包括:
将URL数据进行解码,解码成功后提取HOST域名;
当HOST域名提取成功时,基于正则方法对提取出的HOST域名进行二次匹配,并验证是否通过正则匹配;
对通过正则匹配验证的HOST域名,过滤掉数值型的HOST域名。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2,设置M的方法是:将CDN服务的IP个数作为离散型随机变量,选取设定时间段T内的网络数据,基于所有CDN域名对应的服务IP总数统计出该IP总数出现的次数,并计算该IP总数出现的概率,基于统计结果进行该离散型随机变量的数学期望计算,得到的数值就是M。
4.根据权利要求1所述的方法,其特征在于,所述的步骤309,对获得的服务IP位置进行判定,统计不重复的服务IP的位置,包括:首先基于服务IP位置中的“国家-省份”信息等级进行不同位置的初级判断,对满足“国家-省份”位置信息等级判定出的不同位置的服务IP,再利用IP的经纬度信息结合地球面距离计算公式,计算不同服务IP的位置的距离差,当计算的距离差达到设定的量级时,将判定不同的服务IP处于不同的物理位置,否则判定为处于同一物理位置。
5.根据权利要求4所述的方法,其特征在于,所述的计算不同服务IP的位置的距离差具体是:设两个服务IP分别位于地球的A、B两点,表示为A(xa,ya),B(xb,yb),其中xa和xb表示经度,ya和yb表示纬度,则两个服务IP的位置的距离差为弧的值,如下:
其中,R为地球半径。
6.根据权利要求1所述的方法,其特征在于,所述的方法采用Spark计算引擎对海量数据进行分析计算,并使用多重性能调优方法,包括:使用双重聚合的方法和基于运行资源的并行度调整;采用Spark缓存机制,对于重复利用的RDD对象进行缓存;
其中,双重聚合方法是指:将原有的KEY值加上指定范围内的随机前缀,使其变为不同KEY值,将原有的一个任务中的数据量分配到多个不同的任务中进行聚合分析;在添加随机前缀进行一次聚合后,再去掉随机前缀进行第二次聚合,得到最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711367377.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频相似判定方法
- 下一篇:基于云政务自助终端的监控方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置