[发明专利]一种动态防爬虫的方式在审

申请号：	201711298334.1	申请日：	2017-12-08
公开（公告）号：	CN108133140A	公开（公告）日：	2018-06-08
发明（设计）人：	张琳艳	申请（专利权）人：	成都数聚城堡科技有限公司
主分类号：	G06F21/56	分类号：	G06F21/56;G06F17/30
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	袁英
地址：	610041 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫正常用户访问非正常访问安全策略动态更新访问信息机器学习鉴权方式判定规则区间上限网络防护网络信息限制规则智能水平鉴权算法采集防护验证概率更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种动态防爬虫的方式，所述方式包括：运用机器学习方法采集所有用户的访问信息，确定正常用户特征数值，形成正常用户模型；对不符合正常用户模型的访问定义为非正常的访问，将非正常访问请求通过归集算法，将其为爬虫的概率归集到一定的区间；将达到该区间上限的访问通过二次鉴权方式，验证此访问是否为爬虫。如果多次被要求二次鉴权，那么就会暂停他的访问，同时更新防爬虫的限制规则。本发明能够动态更新爬虫的判定规则，完善了防护爬虫的安全策略，提高了网络信息的安全性，也提升了网络防护的智能水平。

技术领域

本发明涉及网络信息领域，尤其涉及一种动态防爬虫的方式。

背景技术

爬虫技术的更新换代为搜索引擎提供了很好的技术支持，但是很多不友好的爬虫并不遵循通用的reboots协议，未经过平台允许擅自索引平台数据，不仅有可能泄露用户隐私信息，也会造成平台的服务器压力增大。为了防范这种恶意爬虫，防爬虫技术应运而生。

一般的防爬虫技术使用的是规则限制，比如允许一个IP在一定的时间内访问页面数量，限制用户使用的浏览器，用户识别字符串等等。但是这些规则都是事先设定，限制一旦被识破，就失去了防范和限制的作用，那么爬虫就可以不受限制的继续抓取平台信息。

因此设计一种能够动态调整规则，自学习的防爬虫框架成为了一种必然需求。

为了解决上述问题，本发明提出一种动态防爬虫的方式。该动态防爬虫方法通过规则与特征比对相结合，采用概率判定的方法，辅以二次验证码判定，准确快速地识别爬虫访问，保护网络信息安全。同时本方法运用机器学习的方式，能够智能并动态地调整平台的限制规则，提高恶意爬虫防范门槛，显著提升网络信息安全。

发明内容

为了解决上述问题，本发明提出一种动态防爬虫的方式。

具体的，一种动态防爬虫的方式，所述方法包括如下步骤：

S1：运用机器学习方法采集所有用户的访问信息，确定正常用户特征数值，形成正常用户模型；

S2：将每条访问与S1生成的正常用户模型进行对比，若对比结果为非正常的访问，转到S3；若对比结果为正常的访问，转到S6；

S3：将非正常访问请求通过归集算法，将其为爬虫用户请求的概率归集到一定的区间；未达到该区间上限则转到S6，将达到该区间上限的访问转到S4；

S4：判断该访问用户的二次鉴权次数是否达到上限，到达上限转到S7，未达上限转到S5；

S5：通过二次鉴权方式验证此访问是否为爬虫。验证未通过则转到S7，通过则转到S6；

S6：允许继续访问，并更新正常用户模型，并转到S8；

S7：暂停他的访问，并更新爬虫用户模型；

S8：结束。

所述正常用户模型包含用户数据的多个维度和每个维度的正常值区间，正常用户数据的多维度集合构成了正常用户模型，作为比较的数据基础。同理的，所述爬虫用户模型包含爬虫用户数据的多个维度和每个维度的取值区间，爬虫用户数据的多维度集合构成了爬虫用户模型，作为比较的数据基础。

S1中所述机器学习方法，包括：正常用户模型建立算法，用于建立正常用户模型，包括创建新的数据维度和对每个维度赋予正常值区间；正常用户模型更新算法，用于对正常用户模型的正常值区间进行动态更新；爬虫用户模型建立算法，用于建立爬虫用户模型，包括创建新的数据维度和对每个维度赋予取值区间；爬虫用户模型更新算法，用于对爬虫用户模型的取值区间进行动态更新。本方法能够根据访问数据的变化而自动地动态调整平台的判定标准，避免规则被爬虫程序识别并规避。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都数聚城堡科技有限公司，未经成都数聚城堡科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711298334.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多运行环境行为比对的安卓恶意应用检测系统
下一篇：一种用编码实现的多种文件加密方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种动态防爬虫的方式在审

专利文献下载