[发明专利]基于海量数据分析挖掘CDN域名的方法有效

专利信息
申请号: 201711367377.0 申请日: 2017-12-18
公开(公告)号: CN108090188B 公开(公告)日: 2021-05-07
发明(设计)人: 丁煜;李超;罗龙楷;马雪;陈思;毕慧;郭承青;郑彩娟;于淼;王中华 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/2458 分类号: G06F16/2458
代理公司: 北京永创新实专利事务所 11121 代理人: 祗志洁
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于海量数据分析挖掘CDN域名的可靠有效的方法,属于网络信技术领域。该方法首先对初始的URL信息进行URL解码,然后对解码后的URL进行HOST域名提取和正确性验证;对获取的数据进行HOST域名提取,过滤掉脏数据和数值型HOST域名;设置CDN服务IP个数的阈值M和HOST域名对应不重复的服务IP个数的阈值N;对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现。本发明方法紧密结合了使用CDN服务域名的特性,在分析中利用了多种精准的、有依据的分析方法,保证了分析的可靠性和准确度,为后续的网络安全应用和分析提供坚实的基础数据支持,使得相关领域有更加广泛的应用前景。
搜索关键词: 基于 海量 数据 分析 挖掘 cdn 域名 方法
【主权项】:
1.一种基于海量数据分析挖掘CDN域名的方法,其特征在于,包括:步骤1,对获取的数据进行HOST域名提取,过滤掉无法提取HOST域名的脏数据和数值型HOST域名;步骤2,设置阈值M和N,M,N为正整数;M为CDN服务IP个数的阈值;N为HOST域名对应不重复的服务IP个数的阈值;步骤3,对成功提取HOST域名的数据,基于服务IP个数、不同地理位置区域以及是否使用提供CDN服务IP三个维度进行CDN域名分析发现;包括:步骤301,对成功提取HOST域名的数据,按照{HOST域名,服务IP}进行重复数据删除;步骤302,以HOST域名作为KEY值进行分组,在组内统计对应不重复的服务IP及IP总数;然后执行步骤304;步骤303,利用去重后的数据,根据阈值M提取出疑似度较高的提供CDN服务的服务IP;步骤304,判断HOST域名对应不重复的服务IP总数是否通过阈值N的限制,如果通过则执行步骤305,否则判定HOST域名为未使用CDN服务;N为正整数;步骤305,将步骤304中通过判断的{HOST域名,服务IP}数据,和步骤303中提取的疑似度较高的提供CDN服务的服务IP及对应HOST域名数据进行融合;步骤306,将融合后的数据按照HOST域名为KEY值进行分组,组内统计不重复的服务IP及IP总数;步骤307,判断HOST域名对应不重复的服务IP总数是否通过阈值M限制,如果通过检验则执行步骤308,否则判定HOST域名为未使用CDN服务;步骤308,对通过步骤307检验的数据的服务IP,采用离线定位获取位置信息;步骤309,以HOST域名为KEY值分组,组内统计不重复的服务IP的位置及位置数目;步骤310:判断HOST域名对应的服务IP不重复位置的总数是否通过阈值M限制,如果通过检验则判定为CDN域名,否则判定为非CDN域名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711367377.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top