[发明专利]批量爬虫任务的处理方法和装置有效
| 申请号: | 201611261546.8 | 申请日: | 2016-12-30 |
| 公开(公告)号: | CN108268498B | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 朱长坚 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 批量 爬虫 任务 处理 方法 装置 | ||
1.一种批量爬虫任务的处理方法,其特征在于,包括:
获取具有相同配置信息的多个爬取网址;
基于所述配置信息和所述多个爬取网址生成爬虫任务;
将所述爬虫任务注入爬虫程序;
利用所述爬虫程序执行所述爬虫任务,得到所述多个爬取网址的爬取结果;
其中,在利用所述爬虫程序执行所述爬虫任务,得到所述多个爬取网址的爬取结果之后,所述方法还包括:将所述多个爬取网址的爬取结果记录在同一个结果文件中;
其中,基于所述配置信息和所述多个爬取网址生成爬虫任务包括:
将所述配置信息作为爬虫任务的配置信息;
将所述多个爬取网址注入所述爬虫任务的指定字段中,所述指定字段为元素集合,所述元素集合包括多个元素对象,每个所述元素对象用于保存注入所述爬虫任务的一个爬取网址。
2.根据权利要求1所述的处理方法,其特征在于,每个所述爬取网址对应一个标识,所述将所述多个爬取网址的爬取结果记录在同一个结果文件中包括:
根据每个所述爬取网址对应的所述标识将所述多个爬取网址的爬取结果记录在同一个结果文件中。
3.根据权利要求1或2所述的处理方法,其特征在于,利用所述爬虫程序执行所述爬虫任务,得到所述多个爬取网址的爬取结果包括:
将所述爬虫任务拆分成多个子任务,其中,每个所述子任务对应一个所述爬取网址;
执行所述多个子任务,得到所述多个爬取网址的爬取结果。
4.根据权利要求3所述的处理方法,其特征在于,将所述爬虫任务注入爬虫程序包括:对所述爬虫任务进行序列化得到任务信息,并将所述任务信息注入所述爬虫程序;
将所述爬虫任务拆分成多个子任务包括:将所述爬虫程序中的任务信息反序列化成所述爬虫任务;基于所述爬虫任务对应的多个所述爬取网址将所述爬虫任务拆分成多个所述子任务,使每个所述子任务对应一个所述爬取网址。
5.根据权利要求3所述的处理方法,其特征在于,执行所述多个子任务,得到所述多个爬取网址的爬取结果包括:
对每个所述子任务进行序列化,并将序列化后的各个所述子任务发送至预先创建的爬取消息队列;
启动所述爬虫程序,执行所述爬取消息队列中的每个所述子任务,得到每个所述子任务对应的爬取网址的爬取结果。
6.一种批量爬虫任务的处理装置,其特征在于,包括:
第一获取单元,用于获取具有相同配置信息的多个爬取网址;
生成单元,用于基于所述配置信息和所述多个爬取网址生成爬虫任务;
注入单元,用于将所述爬虫任务注入爬虫程序;
执行单元,用于利用所述爬虫程序执行所述爬虫任务,得到所述多个爬取网址的爬取结果;
其中,每个所述爬取网址对应一个标识,其中,所述处理装置包括:
记录单元,用于在利用所述爬虫程序执行所述爬虫任务,得到所述多个爬取网址的爬取结果之后,将所述多个爬取网址的爬取结果记录在同一个结果文件中;
其中,所述生成单元用于:将所述配置信息作为爬虫任务的配置信息;将所述多个爬取网址注入所述爬虫任务的指定字段中,所述指定字段为元素集合,所述元素集合包括多个元素对象,每个所述元素对象用于保存注入所述爬虫任务的一个爬取网址。
7.根据权利要求6所述的处理装置,其特征在于,所述记录单元包括:
记录模块,用于根据每个所述爬取网址对应的所述标识将所述多个爬取网址的爬取结果记录在同一个结果文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611261546.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生产L-谷氨酰胺的菌株和生产L-谷氨酰胺的方法
- 下一篇:调温设备





