[发明专利]分布式网站IPv6支持度检测调度方法在审
申请号: | 202210971809.3 | 申请日: | 2022-08-12 |
公开(公告)号: | CN115460290A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 杨守军;王林;李号;刘宇来;孙宇豪 | 申请(专利权)人: | 北京连星科技有限公司 |
主分类号: | H04L67/60 | 分类号: | H04L67/60;H04L47/76;H04L47/783 |
代理公司: | 深圳卓启知识产权代理有限公司 44729 | 代理人: | 刘新子 |
地址: | 100000 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 网站 ipv6 支持 检测 调度 方法 | ||
1.一种分布式网站IPv6支持度检测调度方法,其特征在于,包括以下步骤:
S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;
S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;
S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;
S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
2.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。
3.根据权利要求2所述的分布式网站IPv6支持度检测调度方法,其特征在于,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
4.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,在所述步骤S3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。
5.根据权利要求4所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述单位时间具体为30S。
6.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述步骤S3中任务调动的具体步骤为:
S31、所述任务调动服务器向所述数据库获取数据;
S32、所述爬虫服务器向所述任务调动服务器请求分配任务;
S33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;
S34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。
7.根据权利要求6所述的分布式网站IPv6支持度检测调度方法,其特征在于,在所述步骤S34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。
8.根据权利要求1所述的分布式网站IPv6支持度检测调度方法,其特征在于,在所述步骤S33中,所述任务调动服务器提取单个任务时,所述任务调动服务器对所述数据库内的单个待检测网站链接仅提取一个任务,以避免同一个所述爬虫服务器同时执行同个网站的多个任务。
9.根据权利要求8所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述爬虫服务器的CPU核心数为2-48核心。
10.根据权利要求9所述的分布式网站IPv6支持度检测调度方法,其特征在于,所述爬虫服务器在执行任务时根据自身负载大小,产生服务器当前负载值,通过所述服务器当前负载值能够计算得出所述爬虫服务器同时可并行的任务,且计算公式为:
(1-爬虫服务器当前负载值)*CPU核心数*2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京连星科技有限公司,未经北京连星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210971809.3/1.html,转载请声明来源钻瓜专利网。