[发明专利]用于大规模网络数据采集的监控与统计分析方法和系统有效
申请号: | 201811634634.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109819019B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 贺广福;程学旗;孟剑;俞晓明;史存会;姜世勇;肖若晗;郭岩;周秀花;余智华;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 大规模 网络 数据 采集 监控 统计分析 方法 系统 | ||
本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
技术领域
本发明属于数据感知与获取领域,特别涉及一种用于大规模网络数据感知获取的监控与统计分析方法。
背景技术
当下,在网络数据感知领域,随着网络数据的爆发式增长,计算资源的成本逐渐降低,分布式的采集成为了互联网数据采集的主要趋势。分布式采集技术在理想情况下可以横向扩展,满足数据量的增长,但是近些年,随着新技术的不断涌现,网络媒体形式和前端技术不断改进,对网络数据采集带来了挑战,特别是反爬虫技术的发展,可能使采集器采集到无效数据,更有甚者,陷入采集黑洞,造成采集资源的浪费和系统瘫痪。所以,需要一套监控和统计系统对网络数据感知系统的运行状态实时监控,包括采集节点、调度节点、采集任务;并且对数据的多维度统计,通过报表的方式展示,便于用户实时了解获取数据的情况。一方面能观察系统的采集量,另一方面,通过统计数据提供人为干预的方法,提高采集效率,优化采集结构。
传统的数据监控统计方法主要有两种,一种是基于日志信息处理的方法,另一种是基于agent探针的方法。
基于日志信息处理的方法:主要通过获取日志信息中,约定好的关键埋点和打点时刻,获取某个时刻,系统的主要状态信息,感知系统的状态随时间的变化,从而分析出系统的运行情况。该方法普遍运用在各类系统中,监控的目标是程序的运行状态,一般使用特定的日志收集工具收集日志,然后通过一系列的批处理程序,提取关键信息,最后统计出程序运行的各类状态指标和异常数据。该方法一般延时较大,对业务系统资源占用少,适合对实时性要求不高的应用程序。
基于agent探针:将agent探针程序部署到采集节点运行,agent探针主动感知采集结点的系统资源,例如,CPU,内存,磁盘等,并定时主动上报给探测数据收集程序,探测数据收集程序汇总,统计并记录。
基于日志的监控方法,适合长时间稳定运行的服务程序,而采集器是在任务产生后,受调度器控制启动,在采集任务后自动停止,是一个短时运行程序;该方法依赖日志的收集和处理,所以一般具有较大的时间延迟,会严重影响监控的实时性,不能达到实时干预的目的;在网络大数据感知中,比较关键的是需要监测网络数据采集的数据质量,而为了保证采集的逻辑清晰和功能独立不能简单地把监测程序植入采集器中,这样,也就不能简单地使用日志处理的监控方法达到监控的目的。
使用agent探针监测系统,一般能实时的获取采集结点的状态数据,但是分布式系统中的采集结点过多,需要探测数据收集程序能高并发的处理,一般难度较大,并且可靠性低。可能在数据发送的峰值,造成数据接收端崩溃。
发明内容
针对上述问题,本发明提出一种用于大规模网络数据采集的监控与统计分析方法,包括:将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置;通过该采集器执行该采集任务,获取结构化数据;监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户。
本发明所述的监控与统计分析方法,其中该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634634.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置