[发明专利]一种Web服务器的恶意爬虫防御策略选择方法有效
申请号: | 201710601523.5 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107517200B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 曾剑平;张晓惠 | 申请(专利权)人: | 复旦大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;H04L12/26 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 服务器 恶意 爬虫 防御 策略 选择 方法 | ||
本发明属于网络信息安全技术领域,具体为一种Web服务器的恶意爬虫防御策略选择方法。本发明的逻辑架构包括Web服务器和爬虫,本发明方法的步骤为:计算Web服务器和爬虫的收益与代价;基于不完全信息动态博弈,计算博弈模型的均衡解,即计算Web服务器采取防御策略的期望收益和采取不防御策略时的期望收益,当这两个收益相等时即得到服务器选择防御或不防御策略的临界点;基于不完全信息重复博弈,计算博弈模型的均衡解,即计算某时刻之前爬虫采取正常访问行为,而之后分别选择恶意访问行为和正常访问行为时所获得的收益;当后者大于前者时,爬虫不会采取恶意访问行为的策略;满足这个条件的博弈参数是服务器策略的最佳选择。
技术领域
本发明属于网络信息安全技术领域,具体涉及Web服务器的恶意爬虫防御策略选择方法。
背景技术
随着大数据分析技术应用的发展,互联网数据由于其良好的开放性而得到了人们的关注,作为自动采集Web页面数据的爬虫技术也就成为大数据分析应用不可或缺的技术,各种爬虫应运而生1-4。
然而,爬虫与Web服务器之间存在很大的矛盾。由于页面数据量大,恶意爬虫为了提高采集效率通常会采用各种手段来加快采集过程,但是这些技术的使用导致Web服务器系统性能的下降,从而难于为正常用户提供服务。因此,为了进行恶意爬虫的检测,Web服务器需要额外的开销来提升恶意爬虫的检测识别效果,但是由于各种检测识别方法都难于保证完全准确,因此容易误伤正常用户的访问,因此产生了更多复杂的问题。
目前,恶意爬虫主要通过以下技术手段来绕过Web服务器的检测5,6。(1)伪装User-Agent,每个浏览器有其正规且固定的User-Agent字段,以此来向服务器表明其身份,恶意爬虫可以根据这个原理伪装成正规的浏览器,从而逃避Web服务器的检测。(2)使用IP代理,使用多个不同的IP代理轮流访问Web服务器,虽然短时间内服务器收到的请求数量激增,但这些请求的客户端IP地址不尽相同,Web服务器也就难以针对特定IP采取对策。(3)模拟人类正常访问Web页面的行为特点,通过随机延时等方法限制自身访问速度与访问时间,增加Web服务器分辨正常用户与恶意爬虫的难度。
针对恶意爬虫的常用技术,Web服务器也有一些相应的回击策略5-8,主要有:(1)限制IP地址,服务器后台对访问请求进行统计,设定单个IP地址在特定时间内的访问次数阈值,如果超出了阈值限制,可以暂时封锁IP;(2)通过验证码弹框,针对爬虫模拟人类的访问习惯,反爬虫时采取行动往往容易误伤用户,而通过输入验证码来阻挡部分爬虫的技术也是当前很普遍使用的,但这必定以牺牲用户体验为代价。
虽然目前有多种检测及阻断爬虫的机制,但是Web服务器仍然难于决定是否该使用这些技术,以及在什么条件下使用这些技术来防止爬虫的恶意访问。这个问题涉及到技术实现所需要的人力、资金和时间投入,也涉及到爬虫技术的持续改善所带来的困难。因此,问题的复杂性也使得Web服务器在部署反爬虫后就一直让反爬虫机制有效,但是这样会带来服务器资源的消耗,也容易对正常用户的行为产生误判的可能。
目前的防御技术缺乏一种形式化和可靠的模型,大都依赖于人为决策和设置。针对这种情况,本发明设计了一种Web服务器的恶意爬虫防御策略选择方法。该方法以博弈论基本思想为基础,给出了爬虫在正常爬行、恶意爬行的前提下,服务器采取防御或不防御策略时,各自所获得收益的计算分析方法,并基于不完全信息动态博弈和基于不完全信息重复博弈,给出了两种典型博弈状态下的均衡解求解方法,给出了服务器采取不同防御策略的分析方法。
发明内容
本发明的目的在于提供一种基于理性决策、避免主观盲目监测的Web服务器的恶意爬虫防御策略选择方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710601523.5/2.html,转载请声明来源钻瓜专利网。