[发明专利]Hadoop分布式文件系统数据文件的生命周期管理方法和设备有效
申请号: | 201210406635.2 | 申请日: | 2012-10-23 |
公开(公告)号: | CN103778148A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 熊佳树 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例公开了一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。 | ||
搜索关键词: | hadoop 分布式 文件系统 数据文件 生命周期 管理 方法 设备 | ||
【主权项】:
一种Hadoop分布式文件系统数据文件的生命周期管理方法,其特征在于,包括以下步骤:通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;根据各归一化目录中所包含的业务时间数据和文件大小数据,确定归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210406635.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种健胃养生茶的加工方法
- 下一篇:一种检测柑桔黄脉病毒的引物对及检测方法