[发明专利]一种爬虫识别加密串的生成方法、爬虫识别方法及装置在审
申请号: | 201810044136.0 | 申请日: | 2018-01-17 |
公开(公告)号: | CN108429785A | 公开(公告)日: | 2018-08-21 |
发明(设计)人: | 王新林 | 申请(专利权)人: | 广东智媒云图科技股份有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 罗晶;高淑怡 |
地址: | 511458 广东省广州市南沙区丰泽东路106*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 加密 缓存 访问请求 计算机可读存储介质 并发送给服务器 读取 接收服务器 网页爬虫 串存储 误判 服务器 发送 返回 应用 | ||
1.一种爬虫识别加密串的生成方法,应用于用户端,其特征在于包括以下步骤:
接收步骤:当访问请求为第一次时,接收服务器端返回的加密串并将加密串存储用户端的缓存中;
发送步骤:当访问请求为非第一次时,读取用户端的缓存中的加密串并发送给服务器端。
2.如权利要求1所述爬虫识别加密串的生成方法,其特征在于:所述接收步骤还包括:接收服务器端返回的js代码,并获取用户端的当前时间,然后通过js代码将用户端的当前时间与加密串进行二次加密并将其存储于用户端的缓存中。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的爬虫识别加密串的生成方法的步骤。
4.一种爬虫识别方法,应用于服务器端,其特征在于包括以下步骤:
发送加密串步骤:当访问请求为第一次时,生成加密串并将加密串返回给用户端;
解密步骤:当访问请求非第一次时,接收用户端发送的加密串;
第一判断步骤:根据加密串是否为服务器生成判断访问请求是否正常用户的访问请求。
5.如权利要求4所述的方法,其特征在于:还包括:第二判断步骤:当访问请求不是正常用户的访问请求时,根据用户代理判断访问请求是否为机器爬虫的访问请求、或根据相同IP单位时间内用户发送的访问请求是否超过预设阈值判断访问请求为机器爬虫的访问请求。
6.如权利要求5所述的方法,其特征在于:还包括第三判断步骤:当该访问请求既不是机器爬虫的访问请求,也不是正常用户的访问请求时,则该访问请求为疑似爬虫的访问请求。
7.如权利要求6所述的方法,其特征在于:当访问请求为正常用户的访问请求时,将访问请求发送给用户服务器;当访问请求为机器爬虫的访问请求时,将访问请求发送给爬虫服务器;当访问请求为疑似爬虫的访问请求时,将访问请求发送给疑似爬虫服务器。
8.如权利要求4所述的方法,其特征在于:发送加密串步骤还包括:生成js代码并返回给用户端,进而通过js代码获取用户端的当前时间,并通过js代码将用户端的当前时间与加密串进行二次加密并存储用户端的缓存中。
9.如权利要求8所述的方法,其特征在于:所述第一判断步骤还包括:判断加密串是否过期,若是,则生成加密串并将加密串返回给客户端。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求4-9中任一项所述的爬虫识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东智媒云图科技股份有限公司,未经广东智媒云图科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810044136.0/1.html,转载请声明来源钻瓜专利网。