[发明专利]一种分布式农业网络数据采集方法及其采集系统有效
| 申请号: | 201811532961.1 | 申请日: | 2018-12-14 |
| 公开(公告)号: | CN109660532B | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 王乐乐;杨自尚;韩宇星 | 申请(专利权)人: | 华南农业大学 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/951 |
| 代理公司: | 郑州铭晟知识产权代理事务所(特殊普通合伙) 41134 | 代理人: | 张鹏 |
| 地址: | 510642*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 农业 网络 数据 采集 方法 及其 系统 | ||
本发明涉及网络数据采集的技术领域,具体涉及一种分布式网络数据采集方法及其采集系统,该方法包括通过调度器对请求队列中的链接进行去重,并将请求队列分配给相应的从机节点进行网络数据采集;在某一采集节点的网络数据采集行为遭到所采集的网站的攻击行为时,触发相应的防御机制;防御机制根据攻击行为判断攻击类型,并判断攻击类型与该采集节点所对应的从机节点预设的防御类型是否匹配;匹配时,执行与防御类型对应的防御措施来解除攻击;不匹配时,取消该采集节点的网络数据采集行为,并将未采集的请求队列返回至调度器等待重新分配,解决了在正常的网络数据采集工作遭到所采集的网站错误攻击时,能够及时的采取相应的措施解除危机。
技术领域
本发明涉及网络数据采集的技术领域,具体涉及一种分布式农业网络数据采集方法及其采集系统。
背景技术
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性和精准性的数据抓取,并按照相应的规则进行数据归类,形成数据库文件的一个过程。
公开号为CN108121706A的专利一种分布式爬虫的优化方法,所述该分布式爬虫的优化方法具体步骤如下:调度中心下发任务;爬虫按URL抓取网页内容;解析器解析网页内容;如果网页更新较多,则把网页内容返回给数据仓库;解析器解析网页中的链接,在本地先用布隆过滤器进行去重;把通过了本地去重的URL进行Hash,该发明爬虫系统在对网页更新频率的处理上,规避了复杂的算法,提高爬虫的工作效率。
发明人在实践中,发现上述现有技术中存在以下缺陷:
在采集农业网站站点的数据信息时,爬虫工作虽然遵从了Robots协议与网站进行交互,但长时间的和/或者频繁的正常的爬虫工作可能会被该网站的反爬虫错误的攻击,无法进行正常的抓取工作。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种分布式农业网络数据采集方法,所采用的技术方案如下:
一种分布式农业网络数据采集方法,该采集方法包括以下步骤:
调度器对请求队列中的链接进行去重,并将所述请求队列分配给相应的从机节点进行网络数据采集;
在某一采集节点的网络数据采集行为遭到所采集的网站的攻击行为时,触发相应的防御机制;
所述防御机制根据所述攻击行为判断攻击类型,并判断所述攻击类型与该采集节点所对应的从机节点预设的防御类型是否相匹配;
在所述攻击类型与防御类型相匹配时,执行与所述防御类型对应的防御措施来解除攻击,进而继续进行网络数据采集;
在所述攻击类型与防御类型不匹配时,取消该采集节点的网络数据采集行为,并将未采集的请求队列返回至调度器等待重新分配。
进一步,在所述采集节点的网络数据采集行为未遭到所采集的网站的攻击行为或者在解除攻击之后时,还包括:
判断所述采集节点是否捕捉到新链接;
在捕捉到新链接时,对所述新链接进行相关性评估,在所述新链接通过相关性评估后,将所述新链接发送给所述调度器进行去重,并将去重后的新链接加入到请求队列中;
在没有捕捉到新链接时,将采集到的数据结果进行存储。
进一步,所述调度器包括Redis数据库和MongoDB数据库,Redis数据库用于存放所述请求队列,MongoDB数据库用于存放采集的数据结果。
进一步,在所述调度器对请求队列中的链接进行去重之前,还包括根据实际任务获取种子链接。
进一步,所述防御机制至少包括以下防御机制中的一种或者多种:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南农业大学,未经华南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811532961.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





