[发明专利]基于异步HTTP请求的可配置域名解析爬虫框架及方法有效
| 申请号: | 201910481942.9 | 申请日: | 2019-06-04 |
| 公开(公告)号: | CN110134403B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 朱喜娜 | 申请(专利权)人: | 厦门大学嘉庚学院 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F8/71;G06F16/951;G06F16/955;H04L67/02;H04L61/4511;H04L67/30 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
| 地址: | 363105 *** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 异步 http 请求 配置 域名解析 爬虫 框架 方法 | ||
1.一种基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,其特征在于:所述框架包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块和链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接;
具体包括以下步骤:
步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中;
步骤S2:启动驱动模块,驱动模块从爬虫模块获取入口链接,将链接发送给链接调度模块;
步骤S3:链接调度模块将所有URL请求包装成请求对象数组,并发送给HTTP通讯模块;
步骤S4:HTTP通讯模块接收到请求对象数组,异步请求所有的链接;待所有响应返回后,将响应结果存放到数组中,返回给链路调度模块;
步骤S5:链路调度模块将所有响应封装成响应对象,依据不同的域名,传递给对应的爬虫组件进行处理;
步骤S6:爬虫模块对响应结果进行解析,抽取链接返回给驱动模块进行递归爬取,将响应结果中的内容解析成结果对象,返回给驱动模块;
步骤S7:驱动模块将结果对象传递给持久化模块,持久化模块接收到结果对象后,对结果对象进行输出处理;
步骤S8:驱动模块继续将链接传递给链接调度模块,重新开始步骤S3,循环至预设递归次数内没有新的链接产生。
2.根据权利要求1所述的基于异步HTTP请求的可配置域名解析爬虫框架的控制方法 ,其特征在于:所述爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学嘉庚学院,未经厦门大学嘉庚学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910481942.9/1.html,转载请声明来源钻瓜专利网。





