[发明专利]Hadoop分布式文件系统数据文件的生命周期管理方法和设备有效
申请号: | 201210406635.2 | 申请日: | 2012-10-23 |
公开(公告)号: | CN103778148A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 熊佳树 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hadoop 分布式 文件系统 数据文件 生命周期 管理 方法 设备 | ||
技术领域
本申请实施例涉及数据存储技术领域,特别涉及一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备。
背景技术
由于Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)有着高容错性的特点,因此常被用来部署在低廉的硬件上。该文件系统可提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序的数据访问。Hadoop分布式文件系统放宽了POSIX(Portable Operating System Interface,可移植操作系统接口)的要求,可以实现以流的形式访问文件系统中的数据。
Hadoop分布式文件系统中的命名节点(namenode)会将Hadoop分布式文件系统文件及目录的元数据存储在下载镜像(fsimage)的二进制文件中, 通过解析Hadoop分布式文件系统的元数据,可以得到文件系统上所有文件及目录的元数据。
目前业务数据及各种日志的存储都遵循一定格式,即99%以上数据量带有时间分区的概念,通过对路径时间分区的归一化,可以对一批具有不同业务时间但为同一业务数据的路径进行统一管理,并可以取出归一化路径对应的业务时间列表及对应的文件大小数据。
目前现存的文件系统的生命周期管理方案为,定义文件的服务等级,根据定义的文件的服务等级进行转储的操作。
在实现本申请实施例的过程中,本申请的发明人发现,现有技术至少存在以下问题:
目前文件系统的生命周期管理技术主要是集中不同类型、级别的数据进行分级存储,对于大规模数据来说,标识数据的服务级别是一个难题,而且这种管理的方式并不能标识出数据本身的特性,在不同的应用场景下,需要对数据本身的不同特性进行辨识,比如,在需要保证数据完整性的应用场景中,需要标识数据是否是连续的,在存在数据缓存的场景下,需要标识数据是否是临时数据,而在需要优化数据存储空间的场景下,需要标识数据是否可以根据数据量大小做其他压缩处理等,因此,现有的技术方案不能很好地体现数据自身的特性,无法针对性的优化数据的生命周期管理,导致数据处理效率低下。
发明内容
本申请实施例提供一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,以解决现有技术方案中不能很好地根据数据自身的特性进行数据的生命周期管理,导致数据处理效率低下的问题。
本申请实施例提供一种Hadoop分布式文件系统数据文件的生命周期管理方法,包括以下步骤:
通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。
另一方面,本申请实施例还提出了一种Hadoop分布式文件系统管理设备,包括:
解析模块,用于通过解析当前Hadoop分布式文件系统中所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
合并模块,用于将所述解析模块所确定的归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
归一化模块,用于根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
分析模块,用于根据所述归一化模块所得到的各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
处理模块,用于根据预设的生命周期管理策略,对所述分析模块所确定的各类型的归一化目录进行相应的数据处理。
与现有技术相比,本申请实施例所提出的技术方案具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210406635.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种健胃养生茶的加工方法
- 下一篇:一种检测柑桔黄脉病毒的引物对及检测方法