[发明专利]一种基于HDFS的小文件优化存储方法有效

申请号：	201310561745.0	申请日：	2013-11-12
公开（公告）号：	CN103577123A	公开（公告）日：	2014-02-12
发明（设计）人：	毛莺池;闵伟;戚荣志;陈曦;王康;任道宁	申请（专利权）人：	河海大学
主分类号：	G06F3/06	分类号：	G06F3/06;G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	李玉平
地址：	210098***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 hdfs 文件优化存储方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于HDFS的小文件优化存储方法，具体是一种对分布式、海量小文件数据实现优化存储的方法，属于分布式数据优化存储领域。

背景技术

随着互联网技术的飞速发展，数据量呈指数级增长，现在这样一个信息爆炸的互联网时代，给互联网用户的生活带来了深远的影响。但是，对于互联网应用领域而言，如何去解决这些海量数据的存储是一个巨大挑战。在这些挑战下，传统的数据存储与处理技术，如关系型数据库，已经不能满足技术发展的需求，新兴的海量数据存储技术不断涌现。如Google公司使用的并行文件系统GFS；海量数据MapReduce编程模型；亚马逊的Simple Storage Service(S3)；Yahoo，Facebook等公司支持的开源软件Hadoop等。

Hadoop是近几年发展较快的云计算平台之一，凭借其可靠、高效、可伸缩的特性在大规模计算领域得到了广泛应用。HDFS作为Hadoop的分布式文件系统，成为在集群上主流的海量存储件系统。HDFS由一个NameNode和若干个DataNode组成，其中NameNode负责管理文件系统的命名空间，DataNode是文件系统的工作节点。HDFS采用主从式架构模式，简化了分布式文件系统结构。HDFS对海量大文件的处理，能够提供高效的处理效率。但是，Hadoop在处理海量小文件时，就会出现以下问题：

（1）NameNode把文件系统的元数据放置在内存中。虽然小文件的大小远小于HDFS默认的文件大小64MB，其占用的存储空间不多，但是小文件在NameNode中占用的内存大小与普通大文件相同。所以，当存储海量小文件时，元数据在NameNode中所占用的内存大量增加，从而导致HDFS对海量小文件存储性能较差。

（2）海量小文件访问效率低。在HDFS中，所有文件的元数据都存储在单一的NameNode内存中，一旦文件数量达到一定的规模后，内存中元数据过多。由于在NanmeNode内存中，元数据查找采用遍历检索方式，这样导致海量小文件检索访问效率明显下降。

（3）在HDFS中，采用单个独立的NameNode，静态划分的方法，对元数据进行管理与分布。这不仅存在单点失效的问题，同时对于大量小文件访问请求的情况下，系统性能难以保证。需要使用一组名字节点进行分布式处理才能满足需求。

然而在实际应用中，从科学计算研究，到Web应用中都会产生大量的小文件。据National Energy Research Scientific Computing Center统计，在其拥有的13,000,000个文件中，约有99%的文件时小于64MB，其中43%的文件是小于64KB。2007年在太平洋西北国家实验室对其存储数据进行统计，发现其系统中存储的12,000,000个文件中，94%的文件小于64MBtyes，58%的文件小于64KBtyes。淘宝图片存储系统容量1800TB（1.8PB），已经占用空间990TB（约1PB），保存的图片文件数量达到286亿多个，这些图片文件包括根据原图生成的缩略图，平均图片大小是17.45K，其中8K以下占图片总量的61%，占存储容量的11%。在分布式文件系统中，海量小文件的出现，对系统I/O挑战从提供高并发的I/O吞吐量转向提供高并发的元数据存取效率。

在HDFS分布式文件系统中，如何对海量小文件数据进行有效地存储与访问，提高存储和访问的效率是急需解决的问题，也是云存储面临的重要问题。

发明内容

发明目的：针对HDFS分布式文件系统对海量小文件数据存储资源利用低，文件访问效率低的问题，本发明提供了一种基于HDFS的小文件优化存储方法，提高HDFS对小文件的读取效率，提升系统的整体性能。

技术方案：一种基于HDFS的小文件优化存储方法，包括以下三个方面：

（1）小文件合并与存储预处理

（2）元数据分布式存储

（3）文件目录结构优化

（1）小文件合并与存储预处理采用的如下：

小文件合并与存储预处理主要分为四个流程，分别是文件过滤、文件合并、元数据生成、元数据对象ID生成。文件过滤和文件合并在客户端完成；元数据生成和元数据对象ID的生成在名字节点NameNode端完成。

①文件过滤：文件过滤是用来判断客户端传送的文件是否为小文件。本发明中设定1M为判断小文件的阈值，若文件大小小于1M，则判断此为小文件，并对小文件进行后续的合并等操作；否则若为大文件，则文件直接存在至HDFS的数据节点DataNode中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学，未经河海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310561745.0/2.html，转载请声明来源钻瓜专利网。

上一篇：CK19联合OV6在制备肝癌分子分型试剂盒及肝癌个体化治疗中的应用
下一篇：一种血栓弹力图仪

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于HDFS的小文件优化存储方法有效

专利文献下载