[发明专利]一种分布式采集公开页面数据的方法在审
申请号: | 201910178763.8 | 申请日: | 2019-03-11 |
公开(公告)号: | CN109948079A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 卜俊 | 申请(专利权)人: | 湖南衍金征信数据服务有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市长沙高*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种分布式采集公开页面数据的方法,将爬虫程序镜像化,打包所有的编程环境依赖与软件环境依赖为镜像。将镜像使用加权轮询算法分发至各个机器节点,保证爬虫集群整体负载均衡。使用docker swarm命令形式管理爬虫任务的资源分配,完成对爬虫任务的动态增减集群资源。其优点是能解决分布式爬虫在集群环境中的资源抢占、无法动态分配资源、集群可拓展性弱等问题,使用者只需要设定每个任务的参数,如任务在集群中启动数量、任务在集群节点分布、任务对应黑名单机器节点,将爬虫代码与设置文件打包后上传集群,即可完成任务自动分发,节省开发成本,规避集群资源分配问题于集群编程环境依赖缺少、依赖冲突问题。 | ||
搜索关键词: | 爬虫 集群 分布式采集 编程环境 机器节点 集群资源 页面数据 打包 动态分配资源 加权轮询算法 集群环境 集群节点 命令形式 爬虫程序 软件环境 设置文件 整体负载 资源分配 资源抢占 自动分发 镜像化 拓展性 上传 分发 均衡 分配 冲突 保证 开发 管理 | ||
【主权项】:
1.一种分布式采集公开页面数据的方法,其特征在于包括如下步骤:一.分析数据源url网页结构与请求模式,编写合适的网络抓取、数据提取代码与数据存储方式,编写爬虫程序;二.访问数据源url或调用浏览器底层驱动模拟浏览器的方式访问数据源url;三.爬虫程序的任务获取路径指定为redis集群,将所有数据源url存入redis集群,爬虫程序从redis集群中获取任务;四.将单点爬虫程序分布在爬虫集群的各个节点上,首先将爬虫程序所需的编程环境依赖与软件环境依赖打包为镜像;五.将爬虫程序打包放在dockerfile同路径下,并在dockerfile中声明传输上下文文件至docker镜像中;执行dockerfile将爬虫程序与所需环境打包为docker镜像;六.将爬虫程序打包为爬虫docker镜像后,在各个机器节点上运行docker swarm,选取集群主机并在集群主机上运行镜像仓库容器;七.上传打包好的爬虫docker镜像至集群主机的镜像仓库;八.在集群主机上执行任务启动命令,任务启动命令包含爬虫docker镜像在集群中启动个数、对外暴露端口号、爬虫镜像名信息;九.执行启动命令后docker swarm集群使用负载均衡机制将第八步中提交的启动个数分布在所有机器节点上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南衍金征信数据服务有限公司,未经湖南衍金征信数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910178763.8/,转载请声明来源钻瓜专利网。