[发明专利]一种基于HDFS的小文件优化存储方法有效

专利信息
申请号: 201310561745.0 申请日: 2013-11-12
公开(公告)号: CN103577123A 公开(公告)日: 2014-02-12
发明(设计)人: 毛莺池;闵伟;戚荣志;陈曦;王康;任道宁 申请(专利权)人: 河海大学
主分类号: G06F3/06 分类号: G06F3/06;G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
地址: 210098*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hdfs 文件 优化 存储 方法
【说明书】:

技术领域

发明涉及一种基于HDFS的小文件优化存储方法,具体是一种对分布式、海量小文件数据实现优化存储的方法,属于分布式数据优化存储领域。

背景技术

随着互联网技术的飞速发展,数据量呈指数级增长,现在这样一个信息爆炸的互联网时代,给互联网用户的生活带来了深远的影响。但是,对于互联网应用领域而言,如何去解决这些海量数据的存储是一个巨大挑战。在这些挑战下,传统的数据存储与处理技术,如关系型数据库,已经不能满足技术发展的需求,新兴的海量数据存储技术不断涌现。如Google公司使用的并行文件系统GFS;海量数据MapReduce编程模型;亚马逊的Simple Storage Service(S3);Yahoo,Facebook等公司支持的开源软件Hadoop等。

Hadoop是近几年发展较快的云计算平台之一,凭借其可靠、高效、可伸缩的特性在大规模计算领域得到了广泛应用。HDFS作为Hadoop的分布式文件系统,成为在集群上主流的海量存储件系统。HDFS由一个NameNode和若干个DataNode组成,其中NameNode负责管理文件系统的命名空间,DataNode是文件系统的工作节点。HDFS采用主从式架构模式,简化了分布式文件系统结构。HDFS对海量大文件的处理,能够提供高效的处理效率。但是,Hadoop在处理海量小文件时,就会出现以下问题:

(1)NameNode把文件系统的元数据放置在内存中。虽然小文件的大小远小于HDFS默认的文件大小64MB,其占用的存储空间不多,但是小文件在NameNode中占用的内存大小与普通大文件相同。所以,当存储海量小文件时,元数据在NameNode中所占用的内存大量增加,从而导致HDFS对海量小文件存储性能较差。

(2)海量小文件访问效率低。在HDFS中,所有文件的元数据都存储在单一的NameNode内存中,一旦文件数量达到一定的规模后,内存中元数据过多。由于在NanmeNode内存中,元数据查找采用遍历检索方式,这样导致海量小文件检索访问效率明显下降。

(3)在HDFS中,采用单个独立的NameNode,静态划分的方法,对元数据进行管理与分布。这不仅存在单点失效的问题,同时对于大量小文件访问请求的情况下,系统性能难以保证。需要使用一组名字节点进行分布式处理才能满足需求。

然而在实际应用中,从科学计算研究,到Web应用中都会产生大量的小文件。据National Energy Research Scientific Computing Center统计,在其拥有的13,000,000个文件中,约有99%的文件时小于64MB,其中43%的文件是小于64KB。2007年在太平洋西北国家实验室对其存储数据进行统计,发现其系统中存储的12,000,000个文件中,94%的文件小于64MBtyes,58%的文件小于64KBtyes。淘宝图片存储系统容量1800TB(1.8PB),已经占用空间990TB(约1PB),保存的图片文件数量达到286亿多个,这些图片文件包括根据原图生成的缩略图,平均图片大小是17.45K,其中8K以下占图片总量的61%,占存储容量的11%。在分布式文件系统中,海量小文件的出现,对系统I/O挑战从提供高并发的I/O吞吐量转向提供高并发的元数据存取效率。

在HDFS分布式文件系统中,如何对海量小文件数据进行有效地存储与访问,提高存储和访问的效率是急需解决的问题,也是云存储面临的重要问题。

发明内容

发明目的:针对HDFS分布式文件系统对海量小文件数据存储资源利用低,文件访问效率低的问题,本发明提供了一种基于HDFS的小文件优化存储方法,提高HDFS对小文件的读取效率,提升系统的整体性能。

技术方案:一种基于HDFS的小文件优化存储方法,包括以下三个方面:

(1)小文件合并与存储预处理

(2)元数据分布式存储

(3)文件目录结构优化

(1)小文件合并与存储预处理采用的如下:

小文件合并与存储预处理主要分为四个流程,分别是文件过滤、文件合并、元数据生成、元数据对象ID生成。文件过滤和文件合并在客户端完成;元数据生成和元数据对象ID的生成在名字节点NameNode端完成。

①文件过滤:文件过滤是用来判断客户端传送的文件是否为小文件。本发明中设定1M为判断小文件的阈值,若文件大小小于1M,则判断此为小文件,并对小文件进行后续的合并等操作;否则若为大文件,则文件直接存在至HDFS的数据节点DataNode中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310561745.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top