[发明专利]一种分布式爬虫方法、电子设备及服务器有效

申请号：	201711405566.2	申请日：	2017-12-22
公开（公告）号：	CN108038218B	公开（公告）日：	2022-04-22
发明（设计）人：	李栋	申请（专利权）人：	联想（北京）有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	北京金信知识产权代理有限公司 11225	代理人：	黄威;喻嵘
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分布式爬虫方法电子设备服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分布式爬虫方法、电子设备及服务器，该方法包括：在访问浏览页面时，触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面；获取所述爬取页面的目标数据；将所述目标数据上传至服务端。本发明的分布式爬取数据的方法，能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现对另一个网站页面数据的抓取，利用每一个普通用户均使用独立且不同的IP的特点，有效避免了反爬虫策略对爬取数据行为的拦截，且爬取更加高效，便捷。

技术领域

本发明涉及一种爬虫方法，尤其涉及一种分布式爬虫方法、电子设备及服务器。

背景技术

目前，随着网络的发展，大数据时代的来临，互联网中大量信息的搜索运用及数据收集成为了一项重要的技术及挑战。因此，网络爬虫应运而生，网络爬虫是一个自动提取网页的程序或方法，它为从互联网上下载数据而生的重要组成部分。

传统的爬虫是通过编写和利用爬虫程序在指定网站中不断遍历、搜索相关页面并将数据记录或存储进自己的数据库中，但是通常这样的爬虫程序很容易被网站的运维及管理员通过分析网站请求量及相关用户(useragent)的方式发现，并直接封杀和拦截。而如果在传统爬虫的基础上，通过IP代理进行不断更换IP并伪装useragent的方式进行爬取，只能一定程度上缓解被封杀和拦截的概率，但是依然很容易被网站的运维及管理员以设置一定时间某一IP的请求频率限制及通过hostname具体检查IP地址是否存在伪装的方法来发现并封杀，所以设置IP代理依然无法有效避免被封杀及拦截的风险，且效率较低，成本更大。

针对现有技术中所存在的问题，提供一种分布式爬虫方法具有重要意义。

发明内容

本发明实施例的目的在于提供一种分布式爬虫方法、电子设备及服务器，该方法能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现使分布式爬虫对另一个网站页面数据的抓取，避免被阻拦程序所限制。

为了解决上述技术问题，本发明的实施例采用了如下技术方案：一种分布式爬虫方法，包括：

在访问浏览页面时，触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面；

获取所述爬取页面的目标数据；

将所述目标数据上传至服务端。

作为优选，所述爬取页面地址和/或所述爬取页面为访问者不可见。

本发明实施例的另一种分布式爬虫方法，包括：

在浏览页面中配置爬取页面地址，其中，所述浏览页面在被终端访问时，所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据；

获取所述终端发送的所述爬取页面的目标数据。

作为优选，所述方法还包括：判断所述目标数据是否已经获取完成，若已经获取完成，则在浏览页面中配置新的爬取页面地址。