[发明专利]爬虫检测方法、设备及可读存储介质在审

专利信息
申请号: 202310256798.5 申请日: 2023-03-16
公开(公告)号: CN116599686A 公开(公告)日: 2023-08-15
发明(设计)人: 刘卓龙 申请(专利权)人: 厦门网宿有限公司
主分类号: H04L9/40 分类号: H04L9/40;H04L67/02;H04L41/142;H04L41/14;H04L41/16
代理公司: 北京华智则铭知识产权代理有限公司 11573 代理人: 陈文香
地址: 361000 福建省厦门*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 爬虫 检测 方法 设备 可读 存储 介质
【说明书】:

本申请公开了一种爬虫检测方法、设备及可读存储介质,分析服务器周期性的获取目标网站的流量数据,根据流量数据中各访问请求的IP地址对流量数据进形分组,从而得到对应不同IP地址的分组。接着,分析服务器对各分组进行特征提取,以得到每个IP地址的第一特征集合,第一特征集合中的特征用于表征IP地址的访问行为。之后,分析服务器将各IP地址的第一特征集合中的特征输入到分析模型中,从而确定出当前周期内,多个访问目标网站的IP地址中,哪些IP地址是正常IP,哪些IP地址是异常IP。采用该种方案,预先对历史访问流量进行分析,得到分析模型,利用分析模型对网络爬虫进行检测,降低对安全人员专业经验的依赖的。

技术领域

本申请实施例涉及网络安全技术领域,特别涉及一种爬虫检测方法、设备及可读存储介质。

背景技术

网络爬虫,也叫网络蜘蛛,是一种按照一定的规则自动地抓取网络信息的程序或者脚本。有些不法份子利用网络爬虫进行恶意的爬虫操作。

传统的网络爬虫检测技术主要依赖于频率限制、cookie/js特性检测、浏览器指纹分析、业务流分析等方式。随着爬虫和反爬虫的对抗升级,一些高级爬虫不断的调整爬取手段,从而成功的绕过防护策略,对目标网站进行爬虫。

为了应对高级爬虫,网络安全人员持续不断的对线上数据进行分析,制定出新的防护策略。该方式严重依赖安全人员的专业经验,且依旧有大部分爬虫能够绕过新的防护策略,网络安全性差。

发明内容

本申请实施例提供一种爬虫检测方法、设备及可读存储介质,预先对历史访问流量进行机器学习,得到分析模型,利用分析模型对网络爬虫进行检测,降低对安全人员专业经验的依赖的同时,提高网络安全性。

第一方面,本申请实施例提供一种爬虫检测方法,包括:

周期性获取请求访问目标网站的访问请求以得到流量数据;

根据各访问请求的IP地址对所述流量数据分组,以得到多个分组,属于同一分组的访问请求具有相同的IP地址;

对于每个IP地址,根据所述IP地址的分组,确定第一特征集合,以得到每个IP地址的第一特征集合,所述第一特征集合中的特征用于表征所述IP地址的访问行为;

将各IP地址的第一特征集合输入预先训练好的分析模型,以使得分析模型输出异常IP和正常IP。

第二方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时使得所述电子设备实现如上第一方面各种可能的实现方式所述的方法。

第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令在被处理器执行时用于实现如上第一方面各种可能的实现方式所述的方法。

第四方面,本申请实施例提供一种包含计算程序的计算机程序产品,所述计算机程序被处理器执行时实现如上第一方面各种可能的实现方式所述的方法。

本申请实施例提供的爬虫检测方法、设备及可读存储介质,分析服务器周期性的获取目标网站的流量数据,根据流量数据中各访问请求的IP地址对流量数据进形分组,从而得到对应不同IP地址的分组。接着,分析服务器对各分组进行特征提取,以得到每个IP地址的第一特征集合,第一特征集合中的特征用于表征IP地址的访问行为。之后,分析服务器将各IP地址的第一特征集合中的特征输入到分析模型中,从而确定出当前周期内,多个访问目标网站的IP地址中,哪些IP地址是正常IP,哪些IP地址是异常IP。采用该种方案,预先对历史访问流量进行分析,得到分析模型,利用分析模型对网络爬虫进行检测,降低对安全人员专业经验的依赖的同时,降低误报率和网络安全维护成本,提高网络防护效果。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门网宿有限公司,未经厦门网宿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310256798.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top