[发明专利]一种动态防爬虫的方式在审
申请号: | 201711298334.1 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108133140A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 张琳艳 | 申请(专利权)人: | 成都数聚城堡科技有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F17/30 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 正常用户 访问 非正常访问 安全策略 动态更新 访问信息 机器学习 鉴权方式 判定规则 区间上限 网络防护 网络信息 限制规则 智能水平 鉴权 算法 采集 防护 验证 概率 更新 | ||
本发明公开了一种动态防爬虫的方式,所述方式包括:运用机器学习方法采集所有用户的访问信息,确定正常用户特征数值,形成正常用户模型;对不符合正常用户模型的访问定义为非正常的访问,将非正常访问请求通过归集算法,将其为爬虫的概率归集到一定的区间;将达到该区间上限的访问通过二次鉴权方式,验证此访问是否为爬虫。如果多次被要求二次鉴权,那么就会暂停他的访问,同时更新防爬虫的限制规则。本发明能够动态更新爬虫的判定规则,完善了防护爬虫的安全策略,提高了网络信息的安全性,也提升了网络防护的智能水平。
技术领域
本发明涉及网络信息领域,尤其涉及一种动态防爬虫的方式。
背景技术
爬虫技术的更新换代为搜索引擎提供了很好的技术支持,但是很多不友好的爬虫并不遵循通用的reboots协议,未经过平台允许擅自索引平台数据,不仅有可能泄露用户隐私信息,也会造成平台的服务器压力增大。为了防范这种恶意爬虫,防爬虫技术应运而生。
一般的防爬虫技术使用的是规则限制,比如允许一个IP在一定的时间内访问页面数量,限制用户使用的浏览器,用户识别字符串等等。但是这些规则都是事先设定,限制一旦被识破,就失去了防范和限制的作用,那么爬虫就可以不受限制的继续抓取平台信息。
因此设计一种能够动态调整规则,自学习的防爬虫框架成为了一种必然需求。
为了解决上述问题,本发明提出一种动态防爬虫的方式。该动态防爬虫方法通过规则与特征比对相结合,采用概率判定的方法,辅以二次验证码判定,准确快速地识别爬虫访问,保护网络信息安全。同时本方法运用机器学习的方式,能够智能并动态地调整平台的限制规则,提高恶意爬虫防范门槛,显著提升网络信息安全。
发明内容
为了解决上述问题,本发明提出一种动态防爬虫的方式。
具体的,一种动态防爬虫的方式,所述方法包括如下步骤:
S1:运用机器学习方法采集所有用户的访问信息,确定正常用户特征数值,形成正常用户模型;
S2:将每条访问与S1生成的正常用户模型进行对比,若对比结果为非正常的访问,转到S3;若对比结果为正常的访问,转到S6;
S3:将非正常访问请求通过归集算法,将其为爬虫用户请求的概率归集到一定的区间;未达到该区间上限则转到S6,将达到该区间上限的访问转到S4;
S4:判断该访问用户的二次鉴权次数是否达到上限,到达上限转到S7,未达上限转到S5;
S5:通过二次鉴权方式验证此访问是否为爬虫。验证未通过则转到S7,通过则转到S6;
S6:允许继续访问,并更新正常用户模型,并转到S8;
S7:暂停他的访问,并更新爬虫用户模型;
S8:结束。
所述正常用户模型包含用户数据的多个维度和每个维度的正常值区间,正常用户数据的多维度集合构成了正常用户模型,作为比较的数据基础。同理的,所述爬虫用户模型包含爬虫用户数据的多个维度和每个维度的取值区间,爬虫用户数据的多维度集合构成了爬虫用户模型,作为比较的数据基础。
S1中所述机器学习方法,包括:正常用户模型建立算法,用于建立正常用户模型,包括创建新的数据维度和对每个维度赋予正常值区间;正常用户模型更新算法,用于对正常用户模型的正常值区间进行动态更新;爬虫用户模型建立算法,用于建立爬虫用户模型,包括创建新的数据维度和对每个维度赋予取值区间;爬虫用户模型更新算法,用于对爬虫用户模型的取值区间进行动态更新。本方法能够根据访问数据的变化而自动地动态调整平台的判定标准,避免规则被爬虫程序识别并规避。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数聚城堡科技有限公司,未经成都数聚城堡科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711298334.1/2.html,转载请声明来源钻瓜专利网。