[发明专利]基于Hadoop分布式文件系统的小文件存储方法有效

专利信息
申请号: 201410116155.1 申请日: 2014-03-26
公开(公告)号: CN103856567B 公开(公告)日: 2017-05-17
发明(设计)人: 樊凯;李慧莹;李晖 申请(专利权)人: 西安电子科技大学
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 陕西电子工业专利中心61205 代理人: 田文英,王品华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hadoop 分布式 文件系统 文件 存储 方法
【说明书】:

技术领域

本发明属于计算机技术领域,更进一步涉及计算机分布式数据优化存储领域中的一种基于Hadoop分布式文件系统(Distributed File System DFS)的小文件存储方法。本发明应用独立于HDFS系统的小文件处理服务器对小文件进行合并、映射和预取等操作,可应用于高效率地存储访问海量小文件。

背景技术

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。目前,在以HDFS为代表的分布式文件存储技术领域中,广泛使用HDFS高效处理各类大文件,但是随着用户需求的改变,小文件数量日益增加,用户和Namenode的交互也越来越频繁。由于HDFS自身的主从式结构和元数据的存储方式导致其在处理海量小文件时NameNode内存占用率高、存储访问效率低、并发用户的访问时延长,这些问题已经成为制约HDFS整体性能的瓶颈。

浪潮电子信息产业股份有限公司申请的专利“一种HDFS针对小文件的改进方法”(专利申请号:201310494888.4,公布号CN 103530387A),公开了一种HDFS针对小文件的改进方法。该方法的思路是将NameNode的部分权限下方DataNode节点上,让DataNode缓存部分小文件元数据信息,让DataNode处理绝大多数的小文件读写请求,最大限度的减轻NameNode的负担。该方法有效解决了NameNode单点负载过重的问题,将小文件的压力分配到数据节点,但是仍然存在的不足是,该方法不适用于高效率地对小文件进行存储访问操作。

Dong B等人发表的论文“A novel approach to improving the efficiency of storing and accessing small files on Hadoop:a case study by PowerPoint files”(Proc.of the 7th Int.Conf.on Services Computing.Piscataway,NJ,USA:IEEE,2010:65-72.),提出了一种针对有效存储ppt、视频文件类型的小文件的解决方案。BlueSky存放的主要是PPT文件小文件和视频小文件,以HDFS作为其存放的载体。在用户存储文件时,系统相应的存储一些文件的快照,用户可以通过这些快照决定是否继续浏览文件。同时,当用户浏览PPT时,可能也会访问一些相关联的PPT和文件,因而文件的访问具有相关性和本地性。Dong等人针对Bluesky系统的特点,在论文中提出了如下观点:1)将属于同一课件的小文件合并成一个大文件,从而减轻NameNode的压力,提高小文件的存储效率;2)提出了一种two-level prefetching机制(索引文件预取和数据文件预取),当用户访问某个文件时,通过索引文件预取机制,把文件所在的Block对应的索引文件加载到内存中,这样,就省去了用户与NameNode交互步骤,提高了小文件的读取效率。同时,由于数据文件预取机制,将该文件所在课件中的所有文件也会被加载到内存中,从而提高用户访问其他文件的速度。BlueSky从系统层面解决了HDFS的小文件问题,虽满足了低时延访问的需求,但是仍然存在的不足是,该方法只适用于BlueSky系统特点下来解决小文件问题,并没有形成一个比较通用的技术方案。

发明内容

本发明的目的在于克服上述现有技术的不足,提出一种基于Hadoop分布式文件系统的小文件存储方法。该方法可以有效地克服HDFS在存储访问海量小文件时名字节点NameNode内存占用率高、存储访问效率低的缺点,并且保证了方法的通用性。

本发明实现的思路是在原HDFS架构之外增加了一个独立的小文件服务器,这个服务器通过建立相应的本地索引和小文件处理机制,来有效地完成小文件的合并、映射、预取,在写入或读取文件之前,先判断该文件是否是小文件,如果是,则先交给小文件服务器处理,否则直接交给原HDFS系统处理。达到减轻名字节点NameNode的负担、海量小文件存储访问效率高的目的,同时保证了系统的通用性。

本发明的具体步骤如下:

1.一种基于Hadoop分布式文件系统的小文件存储方法,包括如下步骤:

(1)新增两台服务器:

在Hadoop分布式文件系统HDFS之外,新增一台用于监听文件读写请求的网络服务器Webserver,新增一台用于处理小文件的小文件处理服务器。

(2)判断文件是否是小文件:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410116155.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top