[发明专利]一种基于Docker集群的分布式爬虫系统在审

专利信息
申请号: 201811431814.5 申请日: 2018-11-28
公开(公告)号: CN109614533A 公开(公告)日: 2019-04-12
发明(设计)人: 马锐;王鑫;苏静;濮斌 申请(专利权)人: 常州市武进区半导体照明应用技术研究院
主分类号: G06F16/951 分类号: G06F16/951;G06F9/50
代理公司: 常州佰业腾飞专利代理事务所(普通合伙) 32231 代理人: 刘松
地址: 213164 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Docker集群的分布式爬虫,属于大数据技术领域,包括在Docker集群上建立分布式爬虫系统;分布式爬虫系统包括种子管理模块、调度器模块、下载器模块、分析器模块、数据存储模块、去重模块、监控模块和日志模块,解决了传统开源的爬虫设计方案中URL查重准确度低的技术问题,本发明采用Docker集群作为分布式爬虫的底层平台支撑,更加高效的使用宿主机的各种资源,并利用多容器技术来代替分布式爬虫多线程技术,本发明将改进的K分型Bloom filter算法应用于分布式爬虫系统,提高URL查重的准确度,降低判断的误差,并使算法适用于任何分布式条件下的应用需求,使爬虫系统在抓取效率以及水平扩展等方面的性能明显提高。
搜索关键词: 爬虫系统 爬虫 集群 准确度 抓取 数据存储模块 调度器模块 多线程技术 分析器模块 底层平台 监控模块 日志模块 水平扩展 算法应用 应用需求 种子管理 大数据 多容器 宿主机 下载器 分型 去重 算法 支撑 改进
【主权项】:
1.一种基于Docker集群的分布式爬虫系统,其特征在于:包括Docker集群和分布式爬虫系统,在Docker集群上建立分布式爬虫系统;分布式爬虫系统包括种子管理模块、调度器模块、下载器模块、分析器模块、数据存储模块、去重模块、监控模块和日志模块;种子管理模块用于负责对外提供关于种子信息的生成页面,根据用户添加的种子信息生成对应的爬虫种子,并把爬虫种子加入到Redis数据库中;调度器模块用于负责对Redis数据库中种子信息进行排序操作,当有种子需要进行调度时,将任务分配给合适的下载器模块进行下载,并根据下载器模块的空闲程度,动态改变下载器模块的数量;下载器模块用于接受调度器模块的调度,并根据调度器模块发来的信息去对应的Redis数据库读取对应需要下载的种子信息;下载完成后,把页面信息提交给分析器模块进行分析;分析器模块用于负责对下载器模块提交过来的页面信息根据种子内提取信息的要求提取所需信息,然后将信息传递给去重模块;去重模块用于负责根据种子内关于去重信息的要求,对种子页面新产生的URL进行去重和页面内容进行去重,然后将去重后的信息传递给数据存储模块;数据存储模块用于负责将去重模块传递过来的信息进行分类存储:如果数据只是内容信息不包含任何URL信息,则存放在Mongodb数据库集群中;如果存在URL信息,则将信息存放在Redis数据库中;监控模块用于负责接收其他模块发送来的心跳数据包并报告异常情况;日志模块用于存放系统所产生的日志信息并对外提供查询接口。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州市武进区半导体照明应用技术研究院,未经常州市武进区半导体照明应用技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811431814.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top