[发明专利]一种爬虫识别加密串的生成方法、爬虫识别方法及装置在审
申请号: | 201810044136.0 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108429785A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 王新林 | 申请(专利权)人: | 广东智媒云图科技股份有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 罗晶;高淑怡 |
地址: | 511458 广东省广州市南沙区丰泽东路106*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 加密 缓存 访问请求 计算机可读存储介质 并发送给服务器 读取 接收服务器 网页爬虫 串存储 误判 服务器 发送 返回 应用 | ||
本发明公开了一种爬虫识别加密串的生成方法,应用于服务器,包括以下步骤:接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。本发明还提供了一种网页爬虫识别方法和计算机可读存储介质。本发明能够解决现有技术中对于爬虫识别的误判问题。
技术领域
本发明涉及防爬虫系统,尤其涉及一种爬虫识别加密串的生成方法、爬虫识别方法及存储介质。
背景技术
目前,在Web系统(包括所有的网站和API接口)中,在服务资源有限的情况下,当存在大量的网络爬虫是会消耗到大量的服务器资源,则会影响正常用户的访问。而现有的防爬虫系统基本都是通过Web请求中的用户代理(user-agent,其指浏览器或搜索引擎等)判断是否是爬虫,当认为是爬虫时,将爬虫的访问请求丢弃。但是这种方式存在以下缺点:1)用户代理可以设置为模拟的,因此仅仅通过用户代理对爬虫进行识别判断时,容易存在误判的情况,比如将正常用户也判断为爬虫或者将机器爬虫认为是正常用户等;2)对搜索引擎的机器爬虫采用丢弃的方式会造成搜索引擎无法收录网站内容,影响网站的推广。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种爬虫识别加密串的生成方法,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之二在于提供一种计算机可读存储介质,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之三在于提供一种爬虫识别方法,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之四在于提供一种计算机可读存储介质,其能够解决现有技术中对于爬虫的误判问题。
本发明的目的之一采用如下技术方案实现:
一种爬虫识别加密串的生成方法,应用于用户端,包括以下步骤:
接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;
发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。
进一步地,所述接收步骤还包括:接收服务器端返回的js代码,并获取用户端的当前时间,然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。
本发明的目的之二采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一所采用的爬虫识别加密串的生成方法的步骤。
本发明的目的之三采用如下技术方案实现:
一种爬虫识别方法,应用于服务器端,包括以下步骤:
发送加密串步骤:当访问请求为第一次时,生成加密串并将加密串返回给用户端;
解密步骤:当访问请求非第一次时,接收用户端发送的加密串;
第一判断步骤:根据加密串是否为服务器生成判断访问请求是否正常用户的访问请求。
进一步地,还包括:第二判断步骤:当访问请求不是正常用户的访问请求时,根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。
进一步地,还包括第三判断步骤:当该访问请求既不是机器爬虫的访问请求,也不是正常用户的访问请求时,则该访问请求为疑似爬虫的访问请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东智媒云图科技股份有限公司,未经广东智媒云图科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810044136.0/2.html,转载请声明来源钻瓜专利网。