[发明专利]一种爬虫识别加密串的生成方法、爬虫识别方法及装置在审

申请号：	201810044136.0	申请日：	2018-01-17
公开（公告）号：	CN108429785A	公开（公告）日：	2018-08-21
发明（设计）人：	王新林	申请（专利权）人：	广东智媒云图科技股份有限公司
主分类号：	H04L29/08	分类号：	H04L29/08;H04L29/06;G06F17/30
代理公司：	广州市越秀区哲力专利商标事务所(普通合伙) 44288	代理人：	罗晶;高淑怡
地址：	511458 广东省广州市南沙区丰泽东路106***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫加密缓存访问请求计算机可读存储介质并发送给服务器读取接收服务器网页爬虫串存储误判服务器发送返回应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种爬虫识别加密串的生成方法，应用于服务器，包括以下步骤：接收步骤：当访问请求为第一次时，接收服务器端返回的加密串并将加密串存储用户端的缓存中；发送步骤：当访问请求为非第一次时，读取用户端的缓存中的加密串并发送给服务器端。本发明还提供了一种网页爬虫识别方法和计算机可读存储介质。本发明能够解决现有技术中对于爬虫识别的误判问题。

技术领域

本发明涉及防爬虫系统，尤其涉及一种爬虫识别加密串的生成方法、爬虫识别方法及存储介质。

背景技术

目前，在Web系统(包括所有的网站和API接口)中，在服务资源有限的情况下，当存在大量的网络爬虫是会消耗到大量的服务器资源，则会影响正常用户的访问。而现有的防爬虫系统基本都是通过Web请求中的用户代理(user-agent，其指浏览器或搜索引擎等)判断是否是爬虫，当认为是爬虫时，将爬虫的访问请求丢弃。但是这种方式存在以下缺点：1)用户代理可以设置为模拟的，因此仅仅通过用户代理对爬虫进行识别判断时，容易存在误判的情况，比如将正常用户也判断为爬虫或者将机器爬虫认为是正常用户等；2)对搜索引擎的机器爬虫采用丢弃的方式会造成搜索引擎无法收录网站内容，影响网站的推广。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种爬虫识别加密串的生成方法，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之二在于提供一种计算机可读存储介质，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之三在于提供一种爬虫识别方法，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之四在于提供一种计算机可读存储介质，其能够解决现有技术中对于爬虫的误判问题。

本发明的目的之一采用如下技术方案实现：

一种爬虫识别加密串的生成方法，应用于用户端，包括以下步骤：

接收步骤：当访问请求为第一次时，接收服务器端返回的加密串并将加密串存储用户端的缓存中；

发送步骤：当访问请求为非第一次时，读取用户端的缓存中的加密串并发送给服务器端。

进一步地，所述接收步骤还包括：接收服务器端返回的js代码，并获取用户端的当前时间，然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。

本发明的目的之二采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所采用的爬虫识别加密串的生成方法的步骤。