[发明专利]一种Web服务器的恶意爬虫防御策略选择方法有效

专利信息
申请号: 201710601523.5 申请日: 2017-07-21
公开(公告)号: CN107517200B 公开(公告)日: 2020-05-26
发明(设计)人: 曾剑平;张晓惠 申请(专利权)人: 复旦大学
主分类号: H04L29/06 分类号: H04L29/06;H04L29/08;H04L12/26
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 web 服务器 恶意 爬虫 防御 策略 选择 方法
【说明书】:

发明属于网络信息安全技术领域,具体为一种Web服务器的恶意爬虫防御策略选择方法。本发明的逻辑架构包括Web服务器和爬虫,本发明方法的步骤为:计算Web服务器和爬虫的收益与代价;基于不完全信息动态博弈,计算博弈模型的均衡解,即计算Web服务器采取防御策略的期望收益和采取不防御策略时的期望收益,当这两个收益相等时即得到服务器选择防御或不防御策略的临界点;基于不完全信息重复博弈,计算博弈模型的均衡解,即计算某时刻之前爬虫采取正常访问行为,而之后分别选择恶意访问行为和正常访问行为时所获得的收益;当后者大于前者时,爬虫不会采取恶意访问行为的策略;满足这个条件的博弈参数是服务器策略的最佳选择。

技术领域

本发明属于网络信息安全技术领域,具体涉及Web服务器的恶意爬虫防御策略选择方法。

背景技术

随着大数据分析技术应用的发展,互联网数据由于其良好的开放性而得到了人们的关注,作为自动采集Web页面数据的爬虫技术也就成为大数据分析应用不可或缺的技术,各种爬虫应运而生1-4

然而,爬虫与Web服务器之间存在很大的矛盾。由于页面数据量大,恶意爬虫为了提高采集效率通常会采用各种手段来加快采集过程,但是这些技术的使用导致Web服务器系统性能的下降,从而难于为正常用户提供服务。因此,为了进行恶意爬虫的检测,Web服务器需要额外的开销来提升恶意爬虫的检测识别效果,但是由于各种检测识别方法都难于保证完全准确,因此容易误伤正常用户的访问,因此产生了更多复杂的问题。

目前,恶意爬虫主要通过以下技术手段来绕过Web服务器的检测5,6。(1)伪装User-Agent,每个浏览器有其正规且固定的User-Agent字段,以此来向服务器表明其身份,恶意爬虫可以根据这个原理伪装成正规的浏览器,从而逃避Web服务器的检测。(2)使用IP代理,使用多个不同的IP代理轮流访问Web服务器,虽然短时间内服务器收到的请求数量激增,但这些请求的客户端IP地址不尽相同,Web服务器也就难以针对特定IP采取对策。(3)模拟人类正常访问Web页面的行为特点,通过随机延时等方法限制自身访问速度与访问时间,增加Web服务器分辨正常用户与恶意爬虫的难度。

针对恶意爬虫的常用技术,Web服务器也有一些相应的回击策略5-8,主要有:(1)限制IP地址,服务器后台对访问请求进行统计,设定单个IP地址在特定时间内的访问次数阈值,如果超出了阈值限制,可以暂时封锁IP;(2)通过验证码弹框,针对爬虫模拟人类的访问习惯,反爬虫时采取行动往往容易误伤用户,而通过输入验证码来阻挡部分爬虫的技术也是当前很普遍使用的,但这必定以牺牲用户体验为代价。

虽然目前有多种检测及阻断爬虫的机制,但是Web服务器仍然难于决定是否该使用这些技术,以及在什么条件下使用这些技术来防止爬虫的恶意访问。这个问题涉及到技术实现所需要的人力、资金和时间投入,也涉及到爬虫技术的持续改善所带来的困难。因此,问题的复杂性也使得Web服务器在部署反爬虫后就一直让反爬虫机制有效,但是这样会带来服务器资源的消耗,也容易对正常用户的行为产生误判的可能。

目前的防御技术缺乏一种形式化和可靠的模型,大都依赖于人为决策和设置。针对这种情况,本发明设计了一种Web服务器的恶意爬虫防御策略选择方法。该方法以博弈论基本思想为基础,给出了爬虫在正常爬行、恶意爬行的前提下,服务器采取防御或不防御策略时,各自所获得收益的计算分析方法,并基于不完全信息动态博弈和基于不完全信息重复博弈,给出了两种典型博弈状态下的均衡解求解方法,给出了服务器采取不同防御策略的分析方法。

发明内容

本发明的目的在于提供一种基于理性决策、避免主观盲目监测的Web服务器的恶意爬虫防御策略选择方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710601523.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top