[发明专利]一种基于流式实时分布式大数据的数据采集方法及系统有效
申请号: | 201710402900.2 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107395669B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 张星明;梁桂煌;林育蓓;陈霖;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实时 分布式 数据 采集 方法 系统 | ||
本发明公开了一种基于流式实时分布式大数据的数据采集方法及系统,主要是采用分布式云集群的方式来处理数据采集,提高数据采集的处理性能和提供一定的可扩展性;构建分区关联的任务队列,不需要首先完成数据累计和落地,实时检测业务数据的变化,采用内存模型来高效存储增量收集的数据,减少本地临时文件保存时所占的空间,避免数据堆积和丢失,同时在基于内存模型的基础上,将数据块进行流化处理,直接在内存中对数据流进行并行处理并实时更新到分析数据集。本发明充分发挥了云集群的高效处理性能,同时利用基于内存的高效存储模型完成数据的收集和归类操作,为后续的实时数据分析提供数据基础,保证了实时数据采集可得到实时的反馈分析结果。
技术领域
本发明涉及大数据数据采集的技术领域,尤其是指一种基于流式实时分布式大数据的数据采集方法及系统。
背景技术
在当今互联网化趋势逐步加强的情况下,伴随着政策方针对“互联网+”工程的积极推进,互联网应用以多种多样的展示方式呈现到用户面前,使互联网应用受众的数量急剧增加,因此产生了海量的用户互联网应用数据,其中包含相关的应用业务数据和用户行为数据等珍贵数据。如果能够借助飞速发展的大数据技术,对相关的用户互联网应用数据进行数据挖掘和统计分析,可以为“互联网+”工程的推进和用户服务改善的方面提供参考依据,对打造大众创业、万众创新和增加公共产品、公共服务“双引擎”,主动适应和引领经济发展新常态,形成经济发展新动能,实现中国经济提质增效升级具有重要意义。
大数据的挖掘与分析从采集源数据到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、联机分析处理(OLAP)、数据挖掘、数据可视化等。其中,数据采集是属于首要的前提。数据分析和处理的前提是分析数据源,而数据采集的任务就是将数据分析主题相关的源数据进行采集并将其持久化为分析数据集,以供后续的数据预处理和数据存储管理等操作。在面对海量数据的情况下,数据采集尤其重要,因为如果不能有效地进行动态数据采集以更新分析数据集,将会影响后续的数据处理和分析结论。为了更好地应对海量数据采集的需求,数据采集系统的设计尤其重要,系统的主要结构包括数据汇集模块和数据归类与持久化模块。
由于互联网应用的种类和数量在近期都呈现急剧增长的趋势,应用数据的采集来源也出现了多种不同的方式,包括浏览器客户端、移动端App、桌面客户端和移动端Webview等方式,需要采集的数据量呈现指数增长的趋势,因此如何能够高效、实时地进行数据采集成为海量数据分析所面临的首要难题。对此,需要设计一种能够稳定、高效地完成海量数据采集的大数据数据采集系统。
现有的数据采集系统提供了并行多线程的方式去进行数据的采集,但是一般只会在单机上进行同种类型业务数据的采集。由于传统的业务数据来源较少,而且数据量级较轻,单机的数据采集能够满足采集需求。但在大数据发展的年代,海量数据采集层次使得单机采集服务器无法稳定高效地支持大数据的采集工作,存在较大性能瓶颈。如何能够高效地扩展数据采集的处理性能是实现海量数据采集的重要问题。
传统的处理数据采集的方式是采用“缓存-离线”处理方式,通过对采集到的数据进行临时文件的本地缓存化,完成数据积累和落地,然后通过基于MapReduce离线批处理的方式进行数据添加到分析数据集当中。这种处理方式只能适用于轻量级的数据量,面对TB级的海量数据时,通过临时文件保存的方式需要额外很大的存储空间,而且容易造成数据堆积和丢失。
传统的数据采集系统从数据汇集到数据存储的过程中都是基于批量处理的模式,操作静态的数据。但在大数据时代,多来源数据促使了数据有效性的出现,传统的批量数据采集方式无法有效实时地进行数据采集以供后续的数据分析处理,无法得到实时反馈,不能更好地把握发展的动向。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402900.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置