[发明专利]一种反爬虫保护关键信息的方法有效

专利信息
申请号: 202010031517.2 申请日: 2020-01-13
公开(公告)号: CN111245838B 公开(公告)日: 2022-04-26
发明(设计)人: 张冰 申请(专利权)人: 四川坤翔科技有限公司
主分类号: H04L9/40 分类号: H04L9/40;G06K7/14
代理公司: 成都天嘉专利事务所(普通合伙) 51211 代理人: 蒋斯琪
地址: 610014 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 爬虫 保护 关键 信息 方法
【说明书】:

发明公开了一种反爬虫保护关键信息的方法,其主要实现步骤为:将网站展示信息划分为普通信息和关键信息,并生成包含关键信息ID和反爬模块URL入口地址的二维码。当用户需要查询关键信息时,通过手持终端扫描或长按识别二维码,反爬模块采集用户ID进行判断分析,如果用户ID被判断为非正常用户,则阻断其后续访问;如果被判断为正常用户,则关联关键信息ID对应的关键信息并在手持终端自动展示给用户。从上述步骤中可以看出,本发明以简单快捷地实现低成本保护网站及保护关键信息不被非法爬取,同时还可以大幅度提升用户的体验。

技术领域

本发明涉及互联网信息安全中的反爬虫技术,特别是一种反爬虫保护关键信息的方法。

背景技术

最新互联网安全公司Imperva对全球10万个域名的网站访问进行分析,称全球范围内约52%的互联网流量来自“机器人”。自2012年Imperva公司监测网络流量以来,机器产生的网络流量就连续五年超过人类产生的流量,仅在2015年人类产生的流量以微弱优势反超过一次,但数据也很快被反扑。也就是说,现有的网站大部分访问者不是人类,而是自动化程序的执行,业内将这类自动化程序简称为爬虫。

经研究统计,全球互联网请求中大概约有20%为恶意爬虫所产生。数年来恶意爬虫的比例高居不下,其中主要以窃取互联网上的权威和核心商业数据为目标,非法盗用他人数据而获取私利,还通过强硬的技术手段对加密数据进行破解,广大数据运营厂商深受其害,因此信息安全领域中对于数据防护技术的诉求日渐强烈。

为了保护服务端数据被非法获取,以及减轻服务器压力,因此需要解决如何识别连接服务端的客户端是否部署机器人的自动化程序,业内将这种阻止爬虫机器人访问的通过技术手段简称反爬虫技术。

为了阻止现在爬虫机器人,现有主流的反爬虫技术及其优劣对比如下:

1、ID连续性问题

这种方法,主要通过自定义生成随机主键方案实现反爬虫。由于大多数数据表会使用数据库主键自动生成机制,爬虫程序可按照有序的ID自己生成ID来爬取数据,所以该方案可有效避免爬虫按ID规律顺序抓取内容。但是因为ID不连续,在查找定位问题时,不方便查找,而且爬虫程序容易调整,跳过不连续。

2、robots.txt配置

robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,通常告诉用户,该网站中的哪些内容是不应被获取的,哪些是可以被获取的。通过robots.txt这个文件,可以告诉那些知名网站搜索引擎等不要爬取自己不想被爬取得内容,即告诉搜索机器人不要爬行该网站的部分网页,也就是俗称的君子协议。但是这个文件也仅仅是告诉,是非强制性的,可以遵守也可以不遵守,因此这就导致很多爬虫私下并不遵守这个协议,还是会非法爬取内容,限制性很弱。

3、User-Agent检测

无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,这个头文件里面的大多数字段都是浏览器用于向服务器“表明身份”的,对于爬虫程序来说,最需要注意的字段就是:User-Agent,因此很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。该方法具体是采用拦截器拦截到每一个请求,取得Header,拿到User-Agent,对于黑白名单的处理如下:

(1)白名单法:首先设置自己的白名单用户代理集,包括市面上主流的代理,抓到请求的UA进行对比,如果包含,则通过,否则请求不予通过。

(2)黑名单法:python、java、php这些程序爬虫会携带这些信息,由于白名单难以完全穷举市面所有UA,所以可以采用黑名单法,禁止包含这些的请求通过。

通过名单筛选,确实可以过滤一小部分简单粗暴的爬虫。但是,大多数爬虫都会伪造这些UA,所以此法也会经常失效。

4、有限数据访问

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川坤翔科技有限公司,未经四川坤翔科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010031517.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top