[发明专利]一种基于Flume与Alluxio的数据收集方法有效

专利信息
申请号: 201710391446.5 申请日: 2017-05-27
公开(公告)号: CN107220348B 公开(公告)日: 2020-10-27
发明(设计)人: 苑晓龙;王绍成 申请(专利权)人: 浪潮云信息技术股份公司
主分类号: G06F16/13 分类号: G06F16/13;G06F16/172;G06F16/174
代理公司: 济南舜源专利事务所有限公司 37205 代理人: 张亮
地址: 250000 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 flume alluxio 数据 收集 方法
【说明书】:

发明采用Alluxio作为Flume收集数据下沉的目标存储文件系统,设计实现了数据下沉组件flume‑alluxio‑sink。flume‑alluxio‑sink组件通过利用Alluxio的异步写入和层次存储特性降低了硬件的投入成本,并且提高了数据下沉的效率,提升了Flume数据收集的性能。通过配置的分配策略将数据尽量平均地分配到集群中的每个节点上,避免了一定程度的数据倾斜问题。

技术领域

本发明涉及信息技术领域,特别涉及一种云计算平台技术领域中基于Flume与Alluxio的数据快速收集的方法与装置。

背景技术

在云计算时代,面对海量数据,传统的ETL(Extraction-Transformation-Loading)工具显然力不从心,主要是数据转换开销太大,在性能上无法满足海量数据的采集需求。为了提高海量数据收集的性能,目前已经产生了各种成熟并且效果非常好的海量数据收集组件,比如常用的Apache基金会的开源Flume组件。Flume是一个分布式、可靠和高可用的海量数据聚合系统,其支持在系统中收集不同类型的数据源的数据,同时,提供对数据进行简单处理,并下沉到不同数据接收方的能力。

如图1中所示,Agent是一个独立的Flume数据收集进程,它主要包括以下几个子组件:

Source子组件:负责接收数据单元,并将数据单元批量的放置到一个或多个Channel子组件。

Sink子组件:负责将数据单元传输到下一跳或最终的目标存储,成功后将数据单元从Channel子组件中删除。

Channel子组件:位于Source子组件与Sink子组件之间,用于缓存传递进来的数据单元。

Sink子组件也称作数据下沉组件,现有的数据下沉组件主要有hdfs-sink、kafka-sink、hbase-sink等组件,并且数据都是下沉到基于HDD(Hard Disk Drive)硬盘驱动器的文件系统,因此Flume数据收集的数据下沉过程的性能瓶颈就在HDD的I/O操作上。即使将数据下沉到基于SSD(Solid State Drive)固态硬盘的文件系统,不仅大大增加了硬件的投入成本,而且数据下沉组件的性能提升也有限。为此,迫切需要一种能够提升数据收集性能的收集方法。

本发明中部分术语与解释如下:

ETL(Extraction-Transformation-Loading)数据提取转换和加载

HDFS(Hadoop Distributed File System)Hadoop分布式文件系统

MEM(Memory)内存

SSD(Solid State Drive)固态硬盘

HDD(Hard Disk Drive)硬盘驱动器

LRFU(Least Recently/Frequently Used)最近最久/频繁未使用

发明内容

针对上述问题,本发明提出了一种基于Flume与Alluxio的数据快速收集装置与收集方法。引入了Alluxio(原名为Tachyon)分布式内存文件系统,它是以内存为中心的虚拟的分布式存储系统,它统一了数据访问的方式,为上层的计算框架和底层存储系统提供了沟通的桥梁。

利用Alluxio组件的异步持久化与层次化存储等特性降低硬件的投入成本,并且提升了Flume的数据下沉组件的性能。层次化存储是指Alluxio根据I/O性能的高低从上向下配置存储层,它支持MEM、SSD、HDD这三种存储类型。异步持久化是指数据块写入内存中即可完成数据写入的I/O操作,持久化操作由Alluxio组件异步完成,因此节省了针对HDD或SSD的I/O操作时间,提升了数据下沉的效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710391446.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top