[发明专利]一种分布式爬虫系统及其实现方法在审
申请号: | 201610466951.7 | 申请日: | 2016-06-22 |
公开(公告)号: | CN106021608A | 公开(公告)日: | 2016-10-12 |
发明(设计)人: | 余虎;潘嘉朋;张郭强;徐少强 | 申请(专利权)人: | 广东亿迅科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510635 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种分布式爬虫系统,该系统包括页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块。该系统通过增加了一个调度节点,把爬取逻辑和监控逻辑分离,并对全局调控,一旦发现主爬虫节点出现异常,马上分配另一新节点取代为主节点。另外,本发明把缓存目标url队列改为持久化存储目标url队列,同时增加一个已处理url队列,对于所有的爬取需求,url统一存放。此外,本发明还提供了一种分布式爬虫系统的实现方法。通过本发明能够适时地调控,增强系统的健壮性,同时也节省资源,增强爬虫的效率。 | ||
搜索关键词: | 一种 分布式 爬虫 系统 及其 实现 方法 | ||
【主权项】:
一种分布式爬虫系统,其特征在于,所述系统包括:页面采集模块、目标url采集模块、调度监控模块和存储目标url队列模块;页面采集模块,其通过从目标url队列提取信息,提取成功后目标url插入已处理url队列,采集到的信息存储到mongodb集群;目标url采集模块,通过主爬虫获取符合已定义规则的url,并把该url压入目标url队列;调度监控模块,贯穿整个系统,与每个模块都直接联系,并监控爬虫状态信息和集群状态信息;存储目标url队列模块,包括两个队列:目标url队列和已处理url队列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东亿迅科技有限公司,未经广东亿迅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610466951.7/,转载请声明来源钻瓜专利网。