[发明专利]一种针对爬虫的数据处理方法在审

专利信息
申请号: 201510200123.4 申请日: 2015-04-26
公开(公告)号: CN104902008A 公开(公告)日: 2015-09-09
发明(设计)人: 严澜 申请(专利权)人: 成都创行信息科技有限公司
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种针对爬虫的数据处理方法,步骤1:管理登录并利用黑白名单池在后台录入白名单,并将黑名单的操作时间设定为X分钟有效;判断当前登录页面的IP为黑名单还是白名单;步骤3:当前登录页面的IP为白名单时,让该IP进行正常页面逻辑操作;步骤4:当前登录页面的IP为黑名单时,让该IP进入验证码页面操作,在该IP写完验证码后,释放该IP不在为黑名单,让该IP进行正常页面逻辑操作;步骤5:当前登录页面的IP为非黑名单和非白名单时,进入计数器池,在Cache计数器会在Cache计数器过期前加1操作,比较累加后的计数值和阀值,当计数值小于阀值,判定该IP为非爬虫,当计数值大于阀值,则判定该IP为爬虫。
搜索关键词: 一种 针对 爬虫 数据处理 方法
【主权项】:
一种针对爬虫的数据处理方法,其特征在于:包括以下步骤:步骤1:管理登录并利用黑白名单池在后台录入白名单,并将黑名单的操作时间设定为X分钟有效;步骤2:判断当前登录页面的IP为黑名单还是白名单;步骤3:当前登录页面的IP为白名单时,让该IP进行正常页面逻辑操作;步骤4:当前登录页面的IP为黑名单时,让该IP进入验证码页面操作,在该IP写完验证码后,释放该IP不在为黑名单,同时让该IP进行正常页面逻辑操作;步骤5:当前登录页面的IP为非黑名单和非白名单时,利用流量统计工具进行筛查,进入计数器池,在Cache计数器会在Cache计数器过期前加1操作,然后比较累加后的计数值和阀值,当计数值小于阀值,判定该IP为非爬虫,让该IP进行正常页面逻辑操作,当计数值大于阀值,将该IP设置成黑名单,并让该IP进入验证码页面操作,在该IP写完验证码后,释放该IP不在为黑名单,若该IP不填写验证码,则判定该IP为爬虫;步骤6:当该IP退出登录页面时,异步的JS请求,cache计数值减1操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都创行信息科技有限公司,未经成都创行信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510200123.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top