[发明专利]一种用于多次验证交互的数据抓取方法、装置和电子设备在审
| 申请号: | 202110450997.0 | 申请日: | 2021-06-11 |
| 公开(公告)号: | CN113282815A | 公开(公告)日: | 2021-08-20 |
| 发明(设计)人: | 刘斯吏 | 申请(专利权)人: | 上海淇玥信息技术有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/54 |
| 代理公司: | 上海点威知识产权代理有限公司 31326 | 代理人: | 杜焱 |
| 地址: | 200333 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 多次 验证 交互 数据 抓取 方法 装置 电子设备 | ||
本发明涉及计算机技术领域,具体涉及一种用于多次验证交互的数据抓取方法、装置和电子设备,包括:构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;基于用户操作授权实时获取经验证的用户数据抓取任务信息;所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。本发明分布式部署及异步机制,提高了系统并发量及失败转移机制稳定性,降低断线、丢包现象,提高数据抓取的处理效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于多次验证交互的数据抓取方法、装置和电子设备。
背景技术
现有技术中,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫是目前所有公司获取外部数据最常用和最重要的手段,对于业务内数据能够起到很好的补充作用。
在互联网信息化时代,很多网站出现了各种身份验证,而用户的个人信息,一般属于不公开的,在需要抓取特定授权网站信息时,使用传统的网络爬虫技术,却显的很无力,各种的网络爬虫性能差,对于特定类型数据抓取并不适用,如需通过短信、邮件、电话回访等的二次授权或多次授权验证查询指定文件数据的平台;因而实时交互式网络爬虫孕育而生。在高并发的实时交互式爬虫网络往往效率很低,因为交互过程中需要多次信息通信,长时间的保持连接,很容易出现断线、丢包的现象,造成系统的不稳定性及长时间占用系统资源并降低了爬虫的效率,因此保证高并发高可用的分布式处理机制很有必要。
发明内容
本发明提供了一种用于多次验证交互的数据抓取方法、装置和电子设备,用以提高数据的抓取效率,提高了系统并发量及失败转移机制的稳定性,同时降低断线、丢包现象以及提高数据抓取的处理效率。
本说明书实施例提供一种用于多次验证交互的数据抓取方法,包括:
构建分布式数据抓取网络,所述分布式数据抓取网络包括中心数据调度节点及多个数据抓取子节点;
基于用户操作授权实时获取经验证的用户数据抓取任务信息;
所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,并将所述用户数据抓取任务信息发送至任务消息队列;
所述任务执行子节点根据任务消息队列中所述用户数据抓取任务信息利用所述中心数据调度节点实时获取多次验证信息以执行数据抓取任务。
优选的,所述构建分布式数据抓取网络,包括:
于所述数据抓取服务器配置所述中心数据调度节点及所述多个数据抓取子节点;
对所述中心数据调度节点及所述多个数据抓取子节点配置相应的处理能力。
优选的,所述基于用户操作授权实时获取经验证的用户数据抓取任务信息,包括:
实时获取用户提交的数据抓取任务请求信息;
对所述数据抓取任务请求信息进行授权验证;
当所述数据抓取任务请求信息授权验证成功,则获取经验证的用户数据抓取任务信息。
优选的,所述中心数据调度节点根据所述用户数据抓取子节点反馈的任务负载信息选择确定任务执行子节点,包括:
所述中心数据调度节点获取所述数据抓取子节点反馈的任务负载信息;
所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,得到任务执行子节点。
优选的,所述中心数据调度节点根据所述数据抓取子节点反馈的任务负载信息对所述数据抓取子节点进行筛选,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淇玥信息技术有限公司,未经上海淇玥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110450997.0/2.html,转载请声明来源钻瓜专利网。





