[发明专利]一种分布式爬虫方法、电子设备及服务器有效
申请号: | 201711405566.2 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108038218B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 李栋 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 黄威;喻嵘 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 爬虫 方法 电子设备 服务器 | ||
本发明公开了一种分布式爬虫方法、电子设备及服务器,该方法包括:在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;获取所述爬取页面的目标数据;将所述目标数据上传至服务端。本发明的分布式爬取数据的方法,能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现对另一个网站页面数据的抓取,利用每一个普通用户均使用独立且不同的IP的特点,有效避免了反爬虫策略对爬取数据行为的拦截,且爬取更加高效,便捷。
技术领域
本发明涉及一种爬虫方法,尤其涉及一种分布式爬虫方法、电子设备及服务器。
背景技术
目前,随着网络的发展,大数据时代的来临,互联网中大量信息的搜索运用及数据收集成为了一项重要的技术及挑战。因此,网络爬虫应运而生,网络爬虫是一个自动提取网页的程序或方法,它为从互联网上下载数据而生的重要组成部分。
传统的爬虫是通过编写和利用爬虫程序在指定网站中不断遍历、搜索相关页面并将数据记录或存储进自己的数据库中,但是通常这样的爬虫程序很容易被网站的运维及管理员通过分析网站请求量及相关用户(useragent)的方式发现,并直接封杀和拦截。而如果在传统爬虫的基础上,通过IP代理进行不断更换IP并伪装useragent的方式进行爬取,只能一定程度上缓解被封杀和拦截的概率,但是依然很容易被网站的运维及管理员以设置一定时间某一IP的请求频率限制及通过hostname具体检查IP地址是否存在伪装的方法来发现并封杀,所以设置IP代理依然无法有效避免被封杀及拦截的风险,且效率较低,成本更大。
针对现有技术中所存在的问题,提供一种分布式爬虫方法具有重要意义。
发明内容
本发明实施例的目的在于提供一种分布式爬虫方法、电子设备及服务器,该方法能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现使分布式爬虫对另一个网站页面数据的抓取,避免被阻拦程序所限制。
为了解决上述技术问题,本发明的实施例采用了如下技术方案:一种分布式爬虫方法,包括:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
获取所述爬取页面的目标数据;
将所述目标数据上传至服务端。
作为优选,所述爬取页面地址和/或所述爬取页面为访问者不可见。
本发明实施例的另一种分布式爬虫方法,包括:
在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
获取所述终端发送的所述爬取页面的目标数据。
作为优选,所述方法还包括:判断所述目标数据是否已经获取完成,若已经获取完成,则在浏览页面中配置新的爬取页面地址。
作为优选,所述获取完成的具体为,已经获取所述爬取页面的全部或达到预定数量的目标数据。
本发明实施例的一种分布式爬虫装置,包括触发模块、第一获取模块和通信模块;
所述触发模块配置为在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
所述第一获取模块配置为获取所述爬取页面的目标数据;
所述通信模块配置为将所述目标数据上传至服务端。
本发明实施例的一种电子设备,包括第一处理器和第一存储器,所述第一存储器上存储有可执行指令,所述第一处理器执行所述可执行指令以实现:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711405566.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超市半自动售卖系统
- 下一篇:一种油田开采装置