[发明专利]一种网络爬虫伪装数据的生成方法及系统在审
申请号: | 201810270472.7 | 申请日: | 2018-03-29 |
公开(公告)号: | CN110555146A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 余姚霖;齐保元;周美林;王斌;李鹏 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;H04L29/08;H04L29/12 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 代理IP 字串 伪装 网络爬虫 资源池 访问目标网站 信息关联存储 调度策略 爬虫程序 生成系统 用户代理 浏览器 打包 存储 外部 | ||
本发明提供一种网络爬虫伪装数据的生成方法,其步骤包括:从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;根据调度策略将所述伪装数据供外部爬虫程序使用。本发明还提供一种网络爬虫伪装数据的生成系统。
技术领域
本发明涉及网络信息抓取领域,尤其涉及一种网络爬虫伪装数据的生成方法及系统。
背景技术
互联网的高速发展使之汇聚了海量的用户数据。将互联网上的海量数据与自己相关的抓取下来,分析数据,就能产生有价值的数据结果,这是舆情分析的前提和基础。但是,由于各搜索引擎、门户网站从自身企业利益的角度出发,并不欢迎爬虫访问,会开发策略程序在确保不妨碍正常自然人用户访问下对爬虫进行封锁,但这样也导致了舆情分析、公共数据调查等正常的数据研究无法进行。
由于互联网企业在封锁网络爬虫程序的时候,普遍采用的原则是“封锁爬虫程序的访问,保证正常自然人用户不受影响,同时要考虑封锁措施的成本在合理的范围之内”。因此,要想实现网络数据抓取,开展舆情分析、公共数据调查等正常的数据研究,方法之一是研究如何让爬虫程序在互联网中的网络行为和网络痕迹像自然人一样,概括地说就是研究让爬虫程序在互联网上以拟人化的方式采集数据。
目前,爬虫程序伪装自己主要的方式就是通过切换代理IP,降低每个IP的访问频率;设置访问请求的时间间隔;或者在访问请求中手工添加cookie;这些方式都只是在某一个方面模拟了自然人用户人访问互联网的操作,如果互联网站的封锁策略变化,就需要重新修改爬虫代码,并不具有持久的稳定性。
发明内容
鉴于上述不足,本发明提出了一种网络爬虫伪装数据的生成方法及系统,自动化批量产生网络爬虫伪装数据,多维度模拟真实自然用户访问互联网,使得网络爬虫在互联网上的访问请求行为不易被目标网站识别,实现舆情分析、公共数据调查等正常的数据获取。
为解决上述技术问题,本发明采用如下技术方案:
一种网络爬虫伪装数据的生成方法,其步骤包括:
从浏览器的用户代理useragent字串库中选择一useragent字串,从代理IP资源池中获取一代理IP;
利用所述useragent字串和所代理IP访问目标网站,根据cookie获取策略,获取cookie信息并存储于cookie资源池;
将所述cookie信息与所述useragent字串、所述代理IP、多个同城代理IP、referer信息关联存储,并打包成伪装数据;
根据调度策略将所述伪装数据供外部爬虫程序使用。
进一步地,根据操作系统类型、渲染引擎标志、版本信息等数据为useragent字串分类建立索引。
进一步地,所述useragent字串填充进访问http请求的header文件头的user-agent字段中。
进一步地,根据IP的地理位置将所述代理IP和所述同城代理IP按照市县两级地理位置索引存储。
进一步地,所述cookie获取策略包括:
1)对于登陆才可访问的网站,使用用户名、密码等用户身份认证信息进行访问;对于无需登陆就可访问的网站,可以不包含用户身份认证信息直接进行访问;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810270472.7/2.html,转载请声明来源钻瓜专利网。