[发明专利]分布式网站IPv6支持度检测调度方法在审
申请号: | 202210971809.3 | 申请日: | 2022-08-12 |
公开(公告)号: | CN115460290A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 杨守军;王林;李号;刘宇来;孙宇豪 | 申请(专利权)人: | 北京连星科技有限公司 |
主分类号: | H04L67/60 | 分类号: | H04L67/60;H04L47/76;H04L47/783 |
代理公司: | 深圳卓启知识产权代理有限公司 44729 | 代理人: | 刘新子 |
地址: | 100000 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 网站 ipv6 支持 检测 调度 方法 | ||
本发明提供了分布式网站IPv6支持度检测调度方法。该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,分布式网站IPv6支持度检测调度方法能够降低反扒问题,提升检测准确度,提升了爬取效率,能够基于负载、CPU核心数计算并行任务数,避免低配置服务器压力过高,高配置服务器过于空闲。
技术领域
本发明涉及互联网爬虫的技术领域,特别是分布式网站IPv6支持度检测调度方法。
背景技术
目前国家正在推行IPv6代际升迁,前提是需要获取网站IPv6支持度,需要获取网站一级链接、二级链接、三级链接IPv6支持情况,获取这些指标后,才能督促相关企业进行整改;
首先,获取网站一、二、三级链接支持情况,需要通过爬虫访问网站一、二、三级链接;
现有技术中通过一台爬虫服务器器请求一个被检测的网站一级链接,获取网站的二级链接,再一个一个下钻请求三级链接,最后把结果上报到数据库;
这种做法虽然能够简单获取到网站一、二、三级链接支持情况,但存在如下问题;
1、单台服务器器处理不了大量任务;2、单台服务器器,单个ip请求次数、频率太高,容易被识别为爬虫,触发反扒,导致检测结果不准确或者检测不了。
因此迫切地需要重新设计一种新的分布式网站IPv6支持度检测调度方法以解决上述问题。
发明内容
本发明提供了分布式网站IPv6支持度检测调度方法,以解决上述背景技术中提出的技术问题。
本发明提供了分布式网站IPv6支持度检测调度方法,该分布式网站IPv6支持度检测调度方法包括以下步骤:S1、构建分布式爬虫服务器,所述分布式爬虫服务器包括爬虫服务器、任务调度服务器、任务分配服务器和数据库;S2、网站检测任务下发,所述任务分配服务器将所需要检测的网站检测任务发送至所述数据库内;S3、任务调动,所述任务调度服务器向所述数据库获取待检测的网站链接,然后,所述任务调度服务器为所述爬虫服务器提供需要执行的任务;S4、任务执行,所述爬虫服务在收到所述调度服务器发送至待执行任务时,所述爬虫服务对待执行任务进行执行动作。
可选地,所述爬虫服务器由多台服务器组成,以提高所述爬虫服务器的任务执行效率以及降低反扒风险。
可选地,多个所述爬虫服务器工作模式为相互独立工作,从而保证多个所述爬虫服务器并行获取待执行的任务。
可选地,在所述步骤S3中,爬虫服务器在单位时间内向所述调度服务器发出请求信号,所述请求信号为待执行的任务。
可选地,所述单位时间具体为30S。
可选地,所述步骤S3中任务调动的具体步骤为:
S31、所述任务调动服务器向所述数据库获取数据;
S32、所述爬虫服务器向所述任务调动服务器请求分配任务;
S33、所述任务调动服务器从所述数据库中获取的数据中提取至少一个任务,然后组成一批任务;
S34、所述任务调动服务器将形成的一批任务发送至所述爬虫服务器执行。
可选地,在所述步骤S34中,若所述爬虫服务器执行的任务链接为一级链接或二级链接时,所述爬虫服务器会将获取到的下级链接传输回至所述任务调动服务器内,所述任务调动服务器将传回至所述任务调动服务器的下级链接转发至所述数据库,所述数据库对下级链接进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京连星科技有限公司,未经北京连星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210971809.3/2.html,转载请声明来源钻瓜专利网。