[发明专利]一种自动识别web爬虫的方法在审

申请号：	201610831757.4	申请日：	2016-09-19
公开（公告）号：	CN106411868A	公开（公告）日：	2017-02-15
发明（设计）人：	周雨晨	申请（专利权）人：	成都知道创宇信息技术有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30
代理公司：	成都信博专利代理有限责任公司51200	代理人：	张辉,崔建中
地址：	610000 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自动识别web爬虫的方法，包括以下步骤步骤1服务器首页返回只包含JS代码的页面，这段代码位于onload函数中，在页面完全加载后被执行；步骤2步骤1所述的JS代码采用某种算法设定一个cookie字段，然后使用window.location跳转到首页；服务器检测cookie合法则返回另一段JS代码，另一段JS代码采用另一种算法设定cookie字段；步骤3当所有的cookie字段都合法，则返回正常的首页URL；步骤4若客户端没有进行重定向操作，或者cookie值不正确，则设置badcookie，标记为爬虫。本发明能阻挡大部分静态爬虫的访问，如果爬虫无法执行首页的JS代码，则只能爬到服务器返回的只有JS代码的首页，无法获取真实首页。
搜索关键词：	一种自动识别 web 爬虫方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种自动识别web爬虫的方法，其特征在于，包括以下步骤：步骤1：服务器首页返回只包含JS代码的页面，这段代码位于onload函数中，在页面完全加载后被执行；步骤2：步骤1所述的JS代码采用第一种对称加密算法通过Set‑Cookie头部设定一个cookie字段，然后使用window.location跳转到首页；服务器检测cookie合法则返回另一段JS代码，另一段JS代码采用第二种对称加密算法设定cookie字段；步骤3：当所有的cookie字段都合法，则返回正常的首页URL；步骤4：若客户端没有进行重定向操作，或者cookie值不正确，则设置badcookie，标记为爬虫。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司，未经成都知道创宇信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610831757.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自动识别web爬虫的方法在审

专利文献下载