[发明专利]一种海量小文件的存储、访问方法及装置有效
申请号: | 201210067404.3 | 申请日: | 2012-03-14 |
公开(公告)号: | CN102662992A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 刘晓云 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 文件 存储 访问 方法 装置 | ||
技术领域
本申请涉及数据存储访问技术领域,特别涉及一种海量小文件的存储方法及其相应装置、访问方法及其相应装置。
背景技术
随着信息技术的发展,各种信息迅猛增长,作为这些信息载体的单个文件随之海量出现,尤其是容量不太大的小文件。这些小文件小的可仅有几KB,大的通常也不超过20MB。常见的小文件,如:微博信息、用户上传的相片、电子邮件、UGC数据等。海量小文件的出现带来的发展瓶颈是小文件的存储访问问题。现有技术中,通常以每个独立的小文件为单位直接存储到磁盘或RAID盘阵(Redundant Array ofIndependent Disk,独立冗余磁盘阵列)。磁盘或RAID盘阵存储少量小文件尚可满足应用需求,但当存储的小文件数量增加到一定规模(海量)时,存储系统的目录索引结构十分庞大、节点数量众多,为实现访问建立的文件目录系统变得臃肿,增加了存储开销。而且,为提高访问速度设置的高速缓存将无法容纳全部的目录索引,至少一部分目录索引数据将转移存储到磁盘区域,这可能导致访问一个小文件需进行多次I/O操作,由此大大降低了小文件的访问速率。此外,由于小文件通常还包括用于描述小文件属性信息(如读写次数、访问时间等)的元数据,在存储海量小文件自身数据的同时,必须增加额外的存储空间用于存储这些对用户并非必要的元数据,从而导致存储空间的浪费。
发明内容
为解决上述技术问题,本申请实施例提供了一种海量小文件的存储方法及其相应装置,以减小海量小文件的存储空间,进而提高海量小文件的访问效率。
本申请实施例提供的海量小文件的存储方法包括:
将接收的小文件顺序写入存储基元;
根据小文件在存储基元的起始地址和容量大小确定所述小文件所属的文件组,以及小文件在该文件组内的序号,所述文件组包含至少两个小文件;
以所述文件组的标识号与小文件的序号为索引,建立与小文件的文件名之间的对应关系以实现存储。
优选地,在接收到小文件后,所述方法还包括:根据存储基元的负载信息选择存储基元,将接收的小文件顺序写入到选择的存储基元。
进一步优选地,缓存存储基元的负载信息,则:在接收到小文件后,查询缓存的负载信息以便根据查询结果执行选择步骤。
优选地,所述存储基元包含至少两个存储子基元,存储子基元中的一个为主存储子基元,则:
将接收的小文件顺序写入主存储子基元,并通过主存储子基元的转发将小文件写入到其他存储子基元;
在存储基元的存储子基元均写入成功后,根据小文件在主存储子基元的起始地址和容量大小执行确定文件组及序号的步骤。
本申请实施例提供的海量小文件的存储装置包括:写入单元、确定单元和建立单元,其中:
所述写入单元,用于将接收的小文件顺序写入存储基元;
所述确定单元,用于根据小文件在存储基元的起始地址和容量大小确定所述小文件所属的文件组,以及小文件在该文件组内的序号,所述文件组包含至少两个小文件;
所述建立单元,用于以所述文件组的标识号与小文件的序号为索引,建立与小文件的文件名之间的对应关系以实现存储。
优选地,所述装置还包括选择单元,用于在接收小文件后,根据存储基元的负载信息选择存储基元,则:写入单元将接收的小文件顺序写入到选择的存储基元。
进一步优选地,所述装置还包括缓存单元和查询单元,其中:缓存单元用于缓存存储基元的负载信息,查询单元用于查询缓存的负载信息,则:选择单元根据查询结果选择存储基元。
优选地,所述存储基元包含至少两个存储子基元,存储子基元中的一个为主存储子基元,则:
所述写入单元,用于将接收的小文件顺序写入主存储子基元,并通过主存储子基元的转发将小文件写入到其他存储子基元;
所述确定单元,用于在存储基元的存储子基元均写入成功后,根据小文件在主存储子基元的起始地址和容量大小执行确定文件组及序号。
为解决上述技术问题,本申请实施例提供了一种海量小文件的访问方法及其相应装置,以提高海量小文件的访问效率。
本申请实施例提供的海量小文件的访问方法包括:
接收待访问小文件的文件名;
根据小文件的文件名查询索引表以获取小文件存储的文件组标识号和小文件在该组内的序号,所述索引表以文件组的标识号与小文件在该文件组内的序号为索引,保存有与小文件的文件名之间的对应关系,所述文件组包含至少两个小文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210067404.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:富硒大米用肥料及其使用方法
- 下一篇:一种莲藕种植用有机肥及其制备方法