[发明专利]一种基于Hadoop的海量可归类小文件关联存储方法无效
申请号: | 201110312694.9 | 申请日: | 2011-10-15 |
公开(公告)号: | CN102332029A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 郑庆华;董博;刘均;马瑞;宋凯磊 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop的海量可归类小文件关联存储方法,主要解决可归类小文件的存取效率问题。本发明包括NameNode端全局索引管理技术和文件聚合技术。针对属于某一类别的独立的小文件进行文件聚合和全局索引管理,大幅度提高了内存利用率,提高单位内存支持的最大文件数量。本发明包括:(1)将属于某一类别的小文件聚合成一个文件,称为逻辑单元;(2)对每一个小文件建立存放在NameNode内存中的全局索引。文件聚合技术用于提高可归类小文件的存储效率,NameNode端全局索引管理技术用于管理聚合后的小文件。通过以上技术,提高了海量可归类小文件的存储效率。本发明适用于通用场景下可归类小文件的存储和管理。 | ||
搜索关键词: | 一种 基于 hadoop 海量 归类 文件 关联 存储 方法 | ||
【主权项】:
一种基于Hadoop的海量可归类小文件关联存储方法,其特征在于,包括NameNode端全局索引管理方案和文件聚合方案:该方法第一是将属于某一类别的小文件称为可归类小文件,当这些可归类小文件聚合成一个文件后,称之为逻辑单元;第二是对每一个小文件建立存放在Hadoop文件系统的NameNode内存中的全局索引;所述的NameNode端全局索引管理方案包括小文件索引集合和碎片索引集合;其中:(1)小文件索引集合采用二叉排序树结构,用来定位小文件,索引项包括文件名称、偏移、长度、局部序列号,索引项按文件名排序,使用局部序列号记录文件聚合到逻辑单元的先后顺序,对小文件索引集合的操作为索引项的查找、插入和删除,这些操作与二叉排序树操作的相同;(2)碎片索引集合采用二叉排序树结构,用来定位碎片,索引项包括偏移和长度,索引项按碎片长度排序,对碎片索引集合的操作为索引项的查找、插入和删除,这些操作与二叉排序树的操作相同;所述文件聚合方案是对可归类小文件采用动态聚合策略,将小文件聚合到其属于的逻辑单元,根据写请求中的逻辑单元名,NameNode判断该文件属于哪个逻辑单元,如果属于某逻辑单元,则将其聚合到该逻辑单元,如果无法判断文件属于哪个逻辑单元,则将其聚合到待定单元中,根据文件库的规模,设定Ntc个待定单元,用Nuf表示未找到逻辑单元的小文件的总数,Naf表示已经聚合到逻辑单元的总数,Nl表示逻辑单元的总数,则 N tc = N uf N af * N l * μ 其中μ<1,是待定因子;小文件具体聚合到哪个待定单元,采取轮询方式或通过Hash值分配方式,之后再根据文件的访问局部性,将待定单元中的文件归类到逻辑单元中;聚合文件时采用碎片再分配策略,当记作Frq的小文件聚合到逻辑单元时,检查碎片并将Frq填充到碎片,NameNode首先读取逻辑单元的碎片索引集合,查询是否有合适的碎片供Frq填充,如果有合适的碎片,则将Frq插入到该碎片中,导致碎片的分裂和碎片索引项的更改,具体有以下三种情况:(a)如果有碎片的长度大于Frq的长度,那么选中超过Frq长度的所有碎片中长度最小的碎片,记作Ffr,将Ffr分裂成两部分,前部分分配给Frq,后部分仍作为碎片,在小文件索引集合插入Frq的索引项,其中:Frq.Offset=Ffr.OffsetFrq.Length=Size of(Frq)其中,Size of(Frq)代表Frq的长度,在碎片索引集合中,修改Ffr的索引项,其中:Ffr.Offset=Ffr.Offset+Size of(Frq)Ffr.Length=Ffr.Length‑Size of(Frq)(b)如果所有碎片的长度都小于Frq的长度,则将数据块的新空间分配给Frq,碎片索引集合无改变;(c)如果有碎片的长度等于Frq的长度,那么就选中该碎片,记作Ffre,将Ffre全部分配给Frq,小文件索引集合插入Frq的索引项,其中:Frq.Offset=Ffre.OffsetFrq.Length=Size of(Frq)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110312694.9/,转载请声明来源钻瓜专利网。