[发明专利]基于异步HTTP请求的可配置域名解析爬虫框架及方法有效

专利信息
申请号: 201910481942.9 申请日: 2019-06-04
公开(公告)号: CN110134403B 公开(公告)日: 2022-08-12
发明(设计)人: 朱喜娜 申请(专利权)人: 厦门大学嘉庚学院
主分类号: G06F8/41 分类号: G06F8/41;G06F8/71;G06F16/951;G06F16/955;H04L67/02;H04L61/4511;H04L67/30
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 陈明鑫;蔡学俊
地址: 363105 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 异步 http 请求 配置 域名解析 爬虫 框架 方法
【权利要求书】:

1.一种基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,其特征在于:所述框架包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块和链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接;

具体包括以下步骤:

步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中;

步骤S2:启动驱动模块,驱动模块从爬虫模块获取入口链接,将链接发送给链接调度模块;

步骤S3:链接调度模块将所有URL请求包装成请求对象数组,并发送给HTTP通讯模块;

步骤S4:HTTP通讯模块接收到请求对象数组,异步请求所有的链接;待所有响应返回后,将响应结果存放到数组中,返回给链路调度模块;

步骤S5:链路调度模块将所有响应封装成响应对象,依据不同的域名,传递给对应的爬虫组件进行处理;

步骤S6:爬虫模块对响应结果进行解析,抽取链接返回给驱动模块进行递归爬取,将响应结果中的内容解析成结果对象,返回给驱动模块;

步骤S7:驱动模块将结果对象传递给持久化模块,持久化模块接收到结果对象后,对结果对象进行输出处理;

步骤S8:驱动模块继续将链接传递给链接调度模块,重新开始步骤S3,循环至预设递归次数内没有新的链接产生。

2.根据权利要求1所述的基于异步HTTP请求的可配置域名解析爬虫框架的控制方法 ,其特征在于:所述爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学嘉庚学院,未经厦门大学嘉庚学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910481942.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top