[发明专利]一种数据获取方法、装置、电子设备及存储介质在审
申请号: | 201910251969.9 | 申请日: | 2019-03-29 |
公开(公告)号: | CN109933706A | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 胡凌云;丁国航 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 张聪聪;马敬 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理模块 分布式队列 存储介质 电子设备 数据获取 链接 集群 封装 投递 并行 申请 | ||
1.一种数据获取方法,其特征在于,应用于集群中的每个处理模块,所述集群中包括多个处理模块,所述方法包括:
从分布式队列中获取爬取请求;
根据所获取的爬取请求爬取数据;
将所爬取的数据中包括的链接封装为新的爬取请求;
将所述新的爬取请求投递至所述分布式队列中。
2.根据权利要求1所述的方法,其特征在于,所述将所爬取的数据中包括的链接封装为新的爬取请求,包括:
读取所爬取的数据中的链接,作为待处理链接;
获取所述待处理链接对应的用户代理信息;
将所获取的用户代理信息和所述待处理链接封装为新的爬取请求。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待处理链接对应的用户代理信息,包括:
从所述集群的数据池中获取以下任意一种或多种所述待处理链接对应的用户代理信息:代理IP、Cookie、源请求方信息、代理浏览器信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所获取的爬取请求爬取数据,包括:对所述爬取请求进行校验,若所述爬取请求通过校验,则根据所述爬取请求爬取数据;
和/或,在所述根据所获取的爬取请求爬取数据之后,还包括:
对所爬取的数据进行校验,删除未通过校验的数据。
5.根据权利要求4所述的方法,其特征在于,在所述对所述爬取请求进行校验之后,还包括:
记录所述爬取请求的校验结果,作为第一校验结果;若所述爬取请求未通过校验,则基于所述第一校验结果,判断所述爬取请求未通过校验的次数是否小于第一预设阈值;如果小于,返回执行所述对所述爬取请求进行校验的步骤;
在所述对所爬取的数据进行校验之后,还包括:记录所爬取的数据的校验结果,作为第二校验结果;
所述删除未通过校验的数据,包括:若所爬取的数据未通过校验,则基于所述第二校验结果,判断所爬取的数据未通过校验的次数是否小于第二预设阈值;如果小于,返回执行所述对所爬取的数据进行校验的步骤;如果不小于,删除所爬取的数据。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述爬取请求进行校验,包括:对所述爬取请求进行以下任意一种或多种校验处理:去重处理、黑名单过滤;
所述对所爬取的数据进行校验,包括:对所爬取的数据进行以下任意一种或多种校验处理:去重处理、黑名单过滤。
7.根据权利要求1所述的方法,其特征在于,在所述根据所获取的爬取请求爬取数据之后,还包括:
对所爬取的数据进行结构化处理,得到结构化数据,作为爬取结果。
8.一种数据获取装置,其特征在于,应用于集群中,所述装置包括:初始模块和多个爬取模块,其中,
所述初始模块,被配置为接收爬取指令,读取所述爬取指令中的初始链接;将所述初始链接封装为爬取请求;将所述爬取请求发送至分布式队列;
每个爬取模块,被配置为从所述分布式队列中获取爬取请求;根据所获取的爬取请求爬取数据;读取所爬取的数据中的链接,作为待处理链接;将所述待处理链接发送至所述初始模块;
所述初始模块,还被配置为将所述待处理链接封装为新的爬取请求,并将所述新的爬取请求投递至所述分布式队列中。
9.一种电子设备,其特征在于,包括处理器和用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现权利要求1-7任一所述的方法步骤。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备执行权利要求1-7任一所述的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910251969.9/1.html,转载请声明来源钻瓜专利网。