[发明专利]一种基于Hadoop的海量可归类小文件关联存储方法无效

专利信息
申请号: 201110312694.9 申请日: 2011-10-15
公开(公告)号: CN102332029A 公开(公告)日: 2012-01-25
发明(设计)人: 郑庆华;董博;刘均;马瑞;宋凯磊 申请(专利权)人: 西安交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 朱海临
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Hadoop的海量可归类小文件关联存储方法,主要解决可归类小文件的存取效率问题。本发明包括NameNode端全局索引管理技术和文件聚合技术。针对属于某一类别的独立的小文件进行文件聚合和全局索引管理,大幅度提高了内存利用率,提高单位内存支持的最大文件数量。本发明包括:(1)将属于某一类别的小文件聚合成一个文件,称为逻辑单元;(2)对每一个小文件建立存放在NameNode内存中的全局索引。文件聚合技术用于提高可归类小文件的存储效率,NameNode端全局索引管理技术用于管理聚合后的小文件。通过以上技术,提高了海量可归类小文件的存储效率。本发明适用于通用场景下可归类小文件的存储和管理。
搜索关键词: 一种 基于 hadoop 海量 归类 文件 关联 存储 方法
【主权项】:
一种基于Hadoop的海量可归类小文件关联存储方法,其特征在于,包括NameNode端全局索引管理方案和文件聚合方案:该方法第一是将属于某一类别的小文件称为可归类小文件,当这些可归类小文件聚合成一个文件后,称之为逻辑单元;第二是对每一个小文件建立存放在Hadoop文件系统的NameNode内存中的全局索引;所述的NameNode端全局索引管理方案包括小文件索引集合和碎片索引集合;其中:(1)小文件索引集合采用二叉排序树结构,用来定位小文件,索引项包括文件名称、偏移、长度、局部序列号,索引项按文件名排序,使用局部序列号记录文件聚合到逻辑单元的先后顺序,对小文件索引集合的操作为索引项的查找、插入和删除,这些操作与二叉排序树操作的相同;(2)碎片索引集合采用二叉排序树结构,用来定位碎片,索引项包括偏移和长度,索引项按碎片长度排序,对碎片索引集合的操作为索引项的查找、插入和删除,这些操作与二叉排序树的操作相同;所述文件聚合方案是对可归类小文件采用动态聚合策略,将小文件聚合到其属于的逻辑单元,根据写请求中的逻辑单元名,NameNode判断该文件属于哪个逻辑单元,如果属于某逻辑单元,则将其聚合到该逻辑单元,如果无法判断文件属于哪个逻辑单元,则将其聚合到待定单元中,根据文件库的规模,设定Ntc个待定单元,用Nuf表示未找到逻辑单元的小文件的总数,Naf表示已经聚合到逻辑单元的总数,Nl表示逻辑单元的总数,则 N tc = N uf N af * N l * μ 其中μ<1,是待定因子;小文件具体聚合到哪个待定单元,采取轮询方式或通过Hash值分配方式,之后再根据文件的访问局部性,将待定单元中的文件归类到逻辑单元中;聚合文件时采用碎片再分配策略,当记作Frq的小文件聚合到逻辑单元时,检查碎片并将Frq填充到碎片,NameNode首先读取逻辑单元的碎片索引集合,查询是否有合适的碎片供Frq填充,如果有合适的碎片,则将Frq插入到该碎片中,导致碎片的分裂和碎片索引项的更改,具体有以下三种情况:(a)如果有碎片的长度大于Frq的长度,那么选中超过Frq长度的所有碎片中长度最小的碎片,记作Ffr,将Ffr分裂成两部分,前部分分配给Frq,后部分仍作为碎片,在小文件索引集合插入Frq的索引项,其中:Frq.Offset=Ffr.OffsetFrq.Length=Size of(Frq)其中,Size of(Frq)代表Frq的长度,在碎片索引集合中,修改Ffr的索引项,其中:Ffr.Offset=Ffr.Offset+Size of(Frq)Ffr.Length=Ffr.Length‑Size of(Frq)(b)如果所有碎片的长度都小于Frq的长度,则将数据块的新空间分配给Frq,碎片索引集合无改变;(c)如果有碎片的长度等于Frq的长度,那么就选中该碎片,记作Ffre,将Ffre全部分配给Frq,小文件索引集合插入Frq的索引项,其中:Frq.Offset=Ffre.OffsetFrq.Length=Size of(Frq)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110312694.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top