[发明专利]高访问情况下的爬虫封禁方法有效

专利信息
申请号: 201610259811.2 申请日: 2016-04-25
公开(公告)号: CN105827619B 公开(公告)日: 2019-02-15
发明(设计)人: 李兴涛;王儒敬;王伟 申请(专利权)人: 无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心
主分类号: H04L29/06 分类号: H04L29/06;H04L29/08;G06F21/56;G06F16/953
代理公司: 无锡市大为专利商标事务所(普通合伙) 32104 代理人: 殷红梅;屠志力
地址: 214135 江苏省无锡市新区菱*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种高访问情况下的爬虫封禁方法,用于在高访问量情况下快速的判断一个访问者是否在访问黑名单中并且实施封禁,并且有效地维护名单库的正确性。本发明涉及以下步骤:提取请求的ip或者id信息;名单库预先导入到内存中,在高访问量的情况下只有通过内存查找才能满足低响应时间的要求,通过在内存的名单库中查找判断id是否在黑名单中;对于是黑名单的拒绝访问;考虑到名单库会不断变动,而且在访问量太大的时候应用会部署到不同服务器中,对于怎样保证不同服务器中名单库的一致性,增加了服务模块定时进行名单一致性维护。本发明结合了共享内存使用名单库和增加服务附件模块的方法,减少了爬取判定的响应时间。
搜索关键词: 访问 情况 爬虫 封禁 方法
【主权项】:
1.一种高访问情况下的爬虫封禁方法,其特征在于,包括:在服务器上建立和维护名单库,将所有要封禁的爬虫加入到名单库的黑名单中,对正规爬虫和服务器内部使用的爬虫加入到名单库的白名单中;将名单库中的名单存储在内存中并建立hash表索引;将建立好hash索引的名单库映射到同一服务器不同进程的地址空间中;当一个请求到达服务器时,提取请求中的用户id或者IP地址,一个进程查询内存中名单库中名单,当用户id或IP地址在名单库的黑名单中时,拒绝访问或延迟返回数据或返回劣质数据;为了维护多台服务器中名单库的一致性,单独设立一个服务模块,所有服务器对名单库进行更新操作时,操作不直接发送给服务器上的名单库,而是发送到服务模块,通过服务模块转发该操作到服务模块中注册的所有服务器中;服务模块还定时对所有注册至服务模块的服务器中的名单进行定时的全量更新;服务模块包括名单请求处理逻辑模块,名单库本地数据库备份;服务模块具体进行下述操作:1)当名单操作请求到达名单请求处理逻辑模块时,名单请求处理逻辑模块判断请求类型;2)如果是删除名单条目的请求,首先到名单库本地数据库中查看该名单条目是否存在;如果存在则删除名单库本地数据库中本条名单条目,同时根据名单请求处理逻辑模块中记录的远程服务器列表给全部远程服务器发送删除该条名单条目的请求;如果不在名单库本地数据库中,不做任何操作;3)如果是添加名单条目的请求,同样首先到名单库本地数据库中查看该名单条目是否存在;如果不存在则在名单库本地数据库中添加该条名单条目,同时根据名单请求处理逻辑模块中记录的远程服务器列表给全部远程服务器发送添加该名单条目的请求;如果存在不做任何操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心,未经无锡中科富农物联科技有限公司;安徽中科物联科技有限公司;江苏物联网研究发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610259811.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top