[发明专利]基于时序聚合算法的海量小文件实时存储方法及装置有效
申请号: | 201611104325.X | 申请日: | 2016-12-05 |
公开(公告)号: | CN106776967B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 朱东杰;张凯;赵奇隆;杜海文;曲荣宁;顾天凯;逄志弘;毛尉茜;李亚;彭暄 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海翰宝网络科技有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/172;G06F16/13 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 孙小栋;于振强 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时序 聚合 算法 海量 文件 实时 存储 方法 装置 | ||
本发明涉及一种基于时序聚合算法的海量小文件实时存储方法及装置,其解决了现有分布式文件系统用于海量小文件时存在的存储效率低的技术问题,其采用数据聚合策略以数据的时间特性定义聚合空间,完成时序数据合并存储,通过将随机写转化为顺序写,本发明可广泛应用于海量小文件的存储。
技术领域
本发明涉及一种文件存储方法及装置,特别是涉及一种基于时序聚合算法的海量小文件实时存储方法及装置。
背景技术
现有的分布式文件系统,包括底层的本地文件系统,主要应用于大文件的处理,针对海量小文件,在元数据管理、数据布局及缓存管理等过程实现方面造成存储性能的大幅降低,具体表现为:
(1)元数据管理低效。分布式文件系统在设计上侧重于大尺寸文件高聚合带宽。就本地磁盘的文件系统而言,访问一个文件需要经过至少三次独立的访问,包括目录项、索引结点和数据。并发访问小文件带来大量低效的随机访问。同时,由于单个目录元数据组织能力低效,大量的小文件通常采用多级目录组织存储。随着目录层次的深入,文件的访问效率进一步下降。而对于分布式文件系统而言,大量的小文件存储将产生过多的元数据,加大了主控服务元数据管理的资源消耗,增大了主控服务器负载。
(2)数据布局低效。磁盘文件系统通常以块作为磁盘数据的组织单位并通过索引节点索引文件的数据块。在存储数据时文件系统往往优先考虑大文件读写带宽。在进行大文件写入时,文件的数据块会被系统尽可能的连续分配,使文件的多个数据块间具有很好的空间局部性。而在进行小文件写入时,系统消耗大量索引节点,同时使数据块分配更加分散无序。由于数据块随机分布在磁盘上的不同物理位置,磁盘碎片化严重,造成存储空间的浪费。
(3)缓存管理低效。在分布式存储服务器端Cache设计中,大量小文件的随机性访问导致过低的Cache命中率,造成小文件访问额外的开销。而客户端Cache的有效性往往局限于所在本地机器。当用户从不同终端读取同一文件时需将数据拷贝到本地客户端缓存中并且当Cache中数据存在更新时,需通知所有缓存了该数据的客户端进行数据更新或无效化。
发明内容
本发明就是为了解决现有分布式文件系统用于海量小文件时存在的存储效率低的技术问题,提供一种存储效率高的基于时序聚合算法的海量小文件实时存储方法及装置。
本发明的有益效果是:基于时序队列的数据聚合,采用时序数据聚合策略将小文件批量写入合并文件,减少索引结点的消耗并将随机写转化为顺序写,提高数据的存储效率。同时,可建立二级索引机制用于聚合数据中小文件的读取,将索引信息逻辑分割将部分负载分配给存储节点,减小代理节点的负载压力,索引维护代价更低。
本发明在Swift海量小文件对象存储系统中增加数据聚合存储方法,在数据量如表1中是得到的性能对比如图5和图6所示。本发明较现有海量小文件存储方法的性能具有显著提升。
表1是实验基本数据
附图说明
图1是基于时序聚合算法的海量小文件实时存储方法的总体架构图;
图2是海量小文件实时存储系统的示意图;
图3是聚合数据读取流程图;
图4是聚合数据读取流程图;
图5是本发明较Swift原始方法写入性能对比结果;
图6是本发明较Swift原始方法数据读取时间对比结果。
附图中符号说明:
10.时序数据聚合存储模块;20.二级索引机制数据读取模块;11.数据预处理模块;12.数据逻辑聚合模块;13.数据物理映射模块;14.数据物理聚合模块。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海翰宝网络科技有限公司,未经哈尔滨工业大学(威海);威海翰宝网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611104325.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据分析方法和装置
- 下一篇:一种通用的游戏数据接口层