[发明专利]基于异步HTTP请求的可配置域名解析爬虫框架及方法有效
| 申请号: | 201910481942.9 | 申请日: | 2019-06-04 |
| 公开(公告)号: | CN110134403B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 朱喜娜 | 申请(专利权)人: | 厦门大学嘉庚学院 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F8/71;G06F16/951;G06F16/955;H04L67/02;H04L61/4511;H04L67/30 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
| 地址: | 363105 *** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 异步 http 请求 配置 域名解析 爬虫 框架 方法 | ||
本发明涉及一种基于异步HTTP请求的可配置域名解析爬虫框架及方法,包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。本发明极大程度的提升了系统运维人员的工作效率。
技术领域
本发明涉及计算机领域,具体涉及一种基于异步HTTP请求的可配置域名解析爬虫框架及方法。
背景技术
随着访问数量的增长及容灾的要求,WEB服务器的部署通常都会向异地多机房的部署方向发展。由此带来一个新的监控难点,如何监控每个机房提供的web服务是否正常。对于单一机房,可以利用爬虫,爬取网站的所有链接,对链接的响应时间、响应代码、响应内容进行检查。目前业内有许多优秀的爬虫框架都能实现此功能。但是,大部分框架都是针对域名进行操作,无法指定爬取指定的机房,无法保证爬虫能够遍历所有的机房。导致系统运维人员工作效率低下。
发明内容
有鉴于此,本发明的目的在于提供一种基于异步HTTP请求的可配置域名解析爬虫框架及方法,极大程度的提升了系统运维人员的工作效率。
为实现上述目的,本发明采用如下技术方案:
一种基于异步HTTP请求的可配置域名解析爬虫框架,包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。
进一步的,所述爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。
进一步的,基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,包括以下步骤:
步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中;
步骤S2:启动驱动模块,驱动模块从爬虫模块获取入口链接,将链接发送给链接调度模块;
步骤S3:链接调度模块将所有URL请求包装成请求对象数组,并发送给HTTP通讯模块;
步骤S4:HTTP通讯模块接收到请求对象数组,异步请求所有的链接;待所有响应返回后,将响应结果存放到数组中,返回给链路调度模块;
步骤S5:链路调度模块将所有响应封装成响应对象,依据不同的域名,传递给对应的爬虫组件进行处理;
步骤S6:爬虫模块对响应结果进行解析,可以抽取链接返回给驱动模块进行递归爬取,将响应结果中的内容解析成结果对象,返回给驱动模块;
步骤S7:驱动模块将结果对象传递给持久化模块,持久化模块接收到结果对象后,对结果对象进行输出处理。
步骤S8:驱动模块继续将链接传递给链接调度模块,重新开始步骤S3,循环至预设递归次数内没有新的链接产生。
本发明与现有技术相比具有以下有益效果:
1.本发明通过绑定不同的机房IP到域名,让爬虫可以对所有机房的页面进行检查。
2、本发明爬虫采用异步HTTP通讯框架,提高爬虫效率。
附图说明
图1是本发明爬虫框架原理图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学嘉庚学院,未经厦门大学嘉庚学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910481942.9/2.html,转载请声明来源钻瓜专利网。





