[发明专利]分布式爬虫的集中管理系统在审

申请号：	202011240728.3	申请日：	2020-11-09
公开（公告）号：	CN112417242A	公开（公告）日：	2021-02-26
发明（设计）人：	钟通;罗平	申请（专利权）人：	深圳市宝视佳科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	深圳中细软知识产权代理有限公司 44528	代理人：	袁文英
地址：	518000 广东省深圳市龙华新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分布式爬虫集中管理系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种分布式爬虫的集中管理系统，其中,该分布式爬虫的集中管理系统包括主机服务器和与该主机服务器通信的多台从机服务器，上述主机服务器和从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis队列进行URL的管理。本发明通过采用分布式爬虫来进行数据爬取并对分布式爬虫通过管理平台进行管理，不仅实现了对爬虫任务的集中管理，还节省了人力资源，完善了对爬虫任务的管理。

技术领域

本发明涉及互联网技术领域，尤其涉及一种分布式爬虫的集中管理系统。

背景技术

随着现代科技的飞速发展，信息化、数字化时代的展开，互联网俨然成为了当今社会信息的最大载体。为了能够在浩瀚的信息海洋中精确地查找出用户所需要的信息，搜索引擎技术应运而生，而作为这一技术的重要组成部分——网络爬虫，它直接影响了搜索引擎的质量、大数据分析的准确性、模型培养的完善等相关需要数据基础的工作的完成效果。因此保证爬虫的高效性、准确性、速度以及如何管理多个爬虫任务等方面是目前爬虫的技术要点。

目前，爬虫任务的数量较多，如果通过人工进行管理，不仅会浪费大量的人力资源，而且无法做到集中精准，因此目前对爬虫任务的管理还需完善。

发明内容

基于此，有必要针对上述问题，提出了一种分布式爬虫的集中管理系统，用于实现对分布式爬虫任务的集中管理。

在第一方面，本发明实施例提供一种分布式爬虫的集中管理系统，所述集中管理系统包括主机服务器和与所述主机服务器通信的多台从机服务器，所述主机服务器和所述从机服务器使用Scrapy框架进行布局，且所述scrapy框架使用redis 队列进行统一资源定位符URL的管理；

其中，所述scrapy框架包含引擎、调度器、下载器、爬虫、管道以及中间件；

所述redis队列、所述调度器、所述引擎及所述管道布局在所述主机服务器，所述下载器、所述爬虫及所述中间件布局在所述从机服务器上；

所述从机服务器用于向所述主机服务器发送request；

所述主机服务器用于基于所述request分配对应的URL，并向所述从机服务器反馈包含所述URL的request；

所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中。

可选的，所述Scrapy框架与Django对接。

可选的，所述主机服务器中设置有爬虫，所述主机服务器调用所述爬虫从网络获取URL，并进行去重处理，将去重之后的URL按照优先级添加至所述redis 队列。

可选的，所述从机服务器还用于根据所述包含URL的request进行解析及数据提取，并将提取的数据存储到预设的数据库中，包括：