[发明专利]一种基于Flume与Alluxio的数据收集方法有效
申请号: | 201710391446.5 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107220348B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 苑晓龙;王绍成 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/172;G06F16/174 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 张亮 |
地址: | 250000 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flume alluxio 数据 收集 方法 | ||
本发明采用Alluxio作为Flume收集数据下沉的目标存储文件系统,设计实现了数据下沉组件flume‑alluxio‑sink。flume‑alluxio‑sink组件通过利用Alluxio的异步写入和层次存储特性降低了硬件的投入成本,并且提高了数据下沉的效率,提升了Flume数据收集的性能。通过配置的分配策略将数据尽量平均地分配到集群中的每个节点上,避免了一定程度的数据倾斜问题。
技术领域
本发明涉及信息技术领域,特别涉及一种云计算平台技术领域中基于Flume与Alluxio的数据快速收集的方法与装置。
背景技术
在云计算时代,面对海量数据,传统的ETL(Extraction-Transformation-Loading)工具显然力不从心,主要是数据转换开销太大,在性能上无法满足海量数据的采集需求。为了提高海量数据收集的性能,目前已经产生了各种成熟并且效果非常好的海量数据收集组件,比如常用的Apache基金会的开源Flume组件。Flume是一个分布式、可靠和高可用的海量数据聚合系统,其支持在系统中收集不同类型的数据源的数据,同时,提供对数据进行简单处理,并下沉到不同数据接收方的能力。
如图1中所示,Agent是一个独立的Flume数据收集进程,它主要包括以下几个子组件:
Source子组件:负责接收数据单元,并将数据单元批量的放置到一个或多个Channel子组件。
Sink子组件:负责将数据单元传输到下一跳或最终的目标存储,成功后将数据单元从Channel子组件中删除。
Channel子组件:位于Source子组件与Sink子组件之间,用于缓存传递进来的数据单元。
Sink子组件也称作数据下沉组件,现有的数据下沉组件主要有hdfs-sink、kafka-sink、hbase-sink等组件,并且数据都是下沉到基于HDD(Hard Disk Drive)硬盘驱动器的文件系统,因此Flume数据收集的数据下沉过程的性能瓶颈就在HDD的I/O操作上。即使将数据下沉到基于SSD(Solid State Drive)固态硬盘的文件系统,不仅大大增加了硬件的投入成本,而且数据下沉组件的性能提升也有限。为此,迫切需要一种能够提升数据收集性能的收集方法。
本发明中部分术语与解释如下:
ETL(Extraction-Transformation-Loading)数据提取转换和加载
HDFS(Hadoop Distributed File System)Hadoop分布式文件系统
MEM(Memory)内存
SSD(Solid State Drive)固态硬盘
HDD(Hard Disk Drive)硬盘驱动器
LRFU(Least Recently/Frequently Used)最近最久/频繁未使用
发明内容
针对上述问题,本发明提出了一种基于Flume与Alluxio的数据快速收集装置与收集方法。引入了Alluxio(原名为Tachyon)分布式内存文件系统,它是以内存为中心的虚拟的分布式存储系统,它统一了数据访问的方式,为上层的计算框架和底层存储系统提供了沟通的桥梁。
利用Alluxio组件的异步持久化与层次化存储等特性降低硬件的投入成本,并且提升了Flume的数据下沉组件的性能。层次化存储是指Alluxio根据I/O性能的高低从上向下配置存储层,它支持MEM、SSD、HDD这三种存储类型。异步持久化是指数据块写入内存中即可完成数据写入的I/O操作,持久化操作由Alluxio组件异步完成,因此节省了针对HDD或SSD的I/O操作时间,提升了数据下沉的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710391446.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置