[发明专利]一种基于Hadoop的海量非独立小文件关联存储方法无效
申请号: | 201110312671.8 | 申请日: | 2011-10-15 |
公开(公告)号: | CN102332027A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 郑庆华;董博;刘均;马瑞;宋凯磊 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop的海量非独立小文件关联存储方法,主要解决海量的非独立小文件存取效率和读取效率较低的问题。针对某个大文件被分割成的许多小文件,即非独立小文件,本发明的特征在于:(1)将属于某个大文件的所有小文件归并为一个文件,称为merged file;(2)对每个merged file建立一个局部索引,并在上传时将局部索引文件与文件实体一同存放在Hadoop系统的DataNode上;(3)在读取非独立小文件时,采用元数据缓存、局部索引文件预取和关联文件预取提高文件的读取效率。通过以上方法,提高了现有Hadoop系统存储小文件的存储效率和读取效率。本发明适用于通用场景下海量的非独立小文件的存储和管理。 | ||
搜索关键词: | 一种 基于 hadoop 海量 独立 文件 关联 存储 方法 | ||
【主权项】:
一种基于Hadoop的海量非独立小文件关联存储方法,其特征在于,包括DataNode端局部索引管理、文件归并和元数据缓存、局部索引文件预取和关联文件预取,所述非独立小文件是指某些大文件被分割成许多小的文件进行存储和读取,这些小文件是该大文件的一部分;具体步骤如下:(1)将属于某个大文件的所有小文件归并为一个文件,称之为merged file,该文件归并步骤用于提高非独立小文件存储效率;(2)对每个merged file建立一个局部索引,并在上传时将局部索引文件与文件实体一同存放在Hadoop文件系统的DataNode上,该DataNode端局部索引管理步骤用于归并后小文件的管理;(3)在读取非独立小文件时,采用元数据缓存、局部索引文件预取和关联文件预取,该步骤用于提高非独立小文件的读取效率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110312671.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种骨外固定支架导向器
- 下一篇:具有自动喷蜡功能的打蜡机