[发明专利]数据抓取方法、装置及网络爬虫系统在审
申请号: | 201810306740.6 | 申请日: | 2018-04-08 |
公开(公告)号: | CN108595543A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 田春燕;付鹏飞 | 申请(专利权)人: | 北京知道创宇信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王晖 |
地址: | 100000 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例提供一种数据抓取方法、装置及网络爬虫系统,方法及装置应用于包括主节点、选择器及代理服务器池的网络爬虫系统。主节点响应数据抓取指令,创建包括代理服务器黑名单的下载器,并向下载器分配数据抓取任务;下载器通过主节点向选择器请求代理服务器;选择器在代理服务器池中确定一代理服务器,当该代理服务器可用时,将该代理服务器作为目标代理服务器分配给下载器;当目标代理服务器不在代理服务器黑名单中时,下载器通过目标代理服务器执行数据抓取任务以从网络抓取数据,并从抓取到的数据中提取结构化数据;当能够提取出结构化数据时,将提取出的结构化数据发送给主节点进行存储。如此,可避免网络爬虫的中断和阻塞。 | ||
搜索关键词: | 代理服务器 下载器 抓取 主节点 网络爬虫系统 结构化数据 目标代理 数据抓取 选择器 服务器 服务器分配 分配数据 请求代理 网络爬虫 响应数据 装置应用 可用 阻塞 存储 指令 中断 创建 申请 网络 | ||
【主权项】:
1.一种数据抓取方法,其特征在于,应用于网络爬虫系统,该网络爬虫系统包括主节点、选择器及代理服务器池;所述方法包括:所述主节点响应数据抓取指令,创建用于从网络搜集并下载数据的下载器,所述下载器包括一代理服务器黑名单;所述主节点向新建的下载器分配数据抓取任务;所述下载器通过所述主节点向所述选择器请求代理服务器;所述选择器在所述代理服务器池中确定一代理服务器,当该代理服务器可用时,将该代理服务器作为目标代理服务器并分配给所述下载器;当所述目标代理服务器不在所述代理服务器黑名单中时,所述下载器通过所述目标代理服务器执行所述数据抓取任务以从网络抓取数据,并从抓取到的数据中提取结构化数据;当能够提取出结构化数据时,将提取出的结构化数据发送给所述主节点;所述主节点将所述结构化数据存储到预设的数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道创宇信息技术有限公司,未经北京知道创宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810306740.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类模型生成、文本分类方法及装置
- 下一篇:一种文档图片分类方法