[发明专利]一种基于Kubenetes集群的分布式爬虫方法和存储设备在审

申请号：	202111455547.7	申请日：	2021-12-01
公开（公告）号：	CN114117180A	公开（公告）日：	2022-03-01
发明（设计）人：	张汀勇;叶章明;侯祥钦;陈天宇;郑为洛;林杰;王敏力;卞江新	申请（专利权）人：	福建博思数字科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/27
代理公司：	福州市景弘专利代理事务所(普通合伙) 35219	代理人：	魏小霞
地址：	350200 福建省福州市长乐***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 kubenetes 集群分布式爬虫方法存储设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及爬虫技术领域，特别涉及一种基于Kubenetes集群的分布式爬虫方法和存储设备。所述一种基于Kubenetes集群的分布式爬虫方法，包括步骤：构建代码仓库；构建制品库；构建自动化部署流程；根据所述部署流程将制品库的镜像文件自动部署至Kubenetes的各个节点上；启动爬虫任务进行任务采集。通过以上方法，不需要逐一配置爬虫所需要的复杂环境配置，环境都已经打包在镜像包，部署升级不需要逐一升级爬虫程序，通过制品库根据自动化部署流程部署到各个爬虫机器上。使得当有更新时，爬虫部署简单方便易操作。

技术领域

本发明涉及爬虫技术领域，特别涉及一种基于Kubenetes集群的分布式爬虫方法和存储设备。

背景技术

网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo！和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求，通过搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

为了解决上述问题，爬虫技术应运而生。且因为物联网信息量的庞大，正常爬虫爬取的数量达到十万、百万甚至千万级别的时候，会用到把爬虫部署到多台机器上来执行爬取任务，需要逐一登录到各个机器并进行环境配置部署和启动。而这么做将存在以下缺点：

1、爬虫部署以及更新会非常的麻烦，需要我们将爬虫代码上传到每一个远程机器上；

2、同时存在资源调度不够灵活问题，不能灵活动态的快速加增或缩减资源；

3、单台机器只能部署一个采集程序，资源利用率不高。

发明内容

为此，需要提供一种基于Kubenetes集群的分布式爬虫方法，用以解决现有爬虫当有代码更新时，需要将爬虫代码一一上传到每一个远程机器上，操作复杂繁琐的技术问题，具体技术方案如下：

一种基于Kubenetes集群的分布式爬虫方法，包括步骤：

构建代码仓库；