[发明专利]分布式网站IPv6支持度检测调度方法在审

专利信息
申请号: 202210971809.3 申请日: 2022-08-12
公开(公告)号: CN115460290A 公开(公告)日: 2022-12-09
发明(设计)人: 杨守军;王林;李号;刘宇来;孙宇豪 申请(专利权)人: 北京连星科技有限公司
主分类号: H04L67/60 分类号: H04L67/60;H04L47/76;H04L47/783
代理公司: 深圳卓启知识产权代理有限公司 44729 代理人: 刘新子
地址: 100000 北京市丰*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 网站 ipv6 支持 检测 调度 方法
【说明书】:

发明提供了分布式网站IPv6支持度检测调度方法。该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,分布式网站IPv6支持度检测调度方法能够降低反扒问题,提升检测准确度,提升了爬取效率,能够基于负载、CPU核心数计算并行任务数,避免低配置服务器压力过高,高配置服务器过于空闲。

技术领域

本发明涉及互联网爬虫的技术领域,特别是分布式网站IPv6支持度检测调度方法。

背景技术

目前国家正在推行IPv6代际升迁,前提是需要获取网站IPv6支持度,需要获取网站一级链接、二级链接、三级链接IPv6支持情况,获取这些指标后,才能督促相关企业进行整改;

首先,获取网站一、二、三级链接支持情况,需要通过爬虫访问网站一、二、三级链接;

现有技术中通过一台爬虫服务器器请求一个被检测的网站一级链接,获取网站的二级链接,再一个一个下钻请求三级链接,最后把结果上报到数据库;

这种做法虽然能够简单获取到网站一、二、三级链接支持情况,但存在如下问题;

1、单台服务器器处理不了大量任务;2、单台服务器器,单个ip请求次数、频率太高,容易被识别为爬虫,触发反扒,导致检测结果不准确或者检测不了。

因此迫切地需要重新设计一种新的分布式网站IPv6支持度检测调度方法以解决上述问题。

发明内容

本发明提供了分布式网站IPv6支持度检测调度方法,以解决上述背景技术中提出的技术问题。

本发明提供了分布式网站IPv6支持度检测调度方法,该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。

可选地,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。

可选地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。

可选地,在所述步骤S3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。

可选地,所述单位时间具体为30S。

可选地,所述步骤S3中任务调动的具体步骤为:

S31、所述任务调动服务器向所述数据库获取数据;

S32、所述爬虫服务器向所述任务调动服务器请求分配任务;

S33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;

S34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。

可选地,在所述步骤S34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京连星科技有限公司,未经北京连星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210971809.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top