[发明专利]海量小文件的分布式存储方法和系统有效
申请号: | 201810918747.3 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109271361B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 唐鹏;谢彬;解维;居晓清;张楠;侯亮 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/18 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 文件 分布式 存储 方法 系统 | ||
本发明提供海量小文件的分布式存储方法和系统,包括将物理磁盘通过逻辑分区形成多个虚拟磁盘;根据海量小文件的文件命名规则进行分类,创建目录索引树;根据文件命名规则解析所存储的海量小文件的文件名,获取其在目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;当出现所述原始目录、所述冗余目录两者中的文件数据不一致时,触发数据同步与恢复操作。本发明针对海量小文件的分布式存储,在存储大量小文件时通过建立索引及文件名定位,实现在海量数据中迅速定位信息,在可靠性上利用数据冗余来保证,机制简单,容错性强,在保证正确性的同时减少元数据存储空间。
技术领域
本发明涉及分布式存储领域,具体地,涉及海量小文件的分布式存储方法和系统,尤其是涉及一种应用于台风分析系统中的分布式数据组织方法。
背景技术
随着科学技术的进步,人类社会正在进入一个数字信息爆炸的时代。互联网的普及为传统行业的发展带来了新的增长点,各行各业纷纷开始向信息化转型,数据的总量正在几何级数增长。面对数据的大爆炸,需要解决的第一个问题就是如何有效存储的问题。显然传统的单机存储模式已经远远满足不了现实的要求。分布式存储成为现代信息存储的必然要求。
气象领域也在进行着信息化的过程,台风分析作为气象领域的一个重要分支,在数据存储与分析时同样面临着如优化存储和如何快速定位信息的问题。与普通行业不同的是台风的原始数据来源于各种卫星的侦查的大量卫星云图以及经过人工统计的台风的路径信息。这些数据本身的属于小文件,通常大小小于10M,而且经过多年的累计,云图数量已经达到了上千万张,数据量已经达到T级别甚至是P级别。如何有效的存储这些数据,并且在这些数据中如何快速定位信息,成为气象领域信息化亟待解决的问题。
气象台风系统数据的有着数据量大,数据异构和数据噪声严重的情况,在存储这些数据时,首先应该做到快速高效的存储,提高存储资源的利用率;同时,由于也应该减少数据检索的时间,保证在海量数据中可以快速的定位到具体的信息。其次由于这些数据意义非凡,对未来台风的预测和定位有着重要的价值,所以在存储系统中除了需要考虑数据存入和获取的速度,还应该保证系统的抗灾性和及时的恢复能力。常见的分布式文件系统如HDFS,GFS等在利用大量单机创建集群环境上面给出很好的示范。但是这些分布式文件系统有一个共同的问题,即在存储小文件时效率十分低下。例如,HDFS存储文件时是以块为基本单位的,默认的块的大小为64M,当存储一个文件时,如果文件的大小大于块的大小,系统会对文件进行分片操作,使得可以用多个块来存储此文件;而当一个文件的大小远远小于块的大小时,HDFS在做存储处理时也会让其占用整个块。这就导致了HDFS在存储大量小文件时会有严重的资源浪费的情况。由此可见常见的分布式文件系统并不能很好的解决台风分析系统中的数据存储与数据定位的问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种海量小文件的分布式存储方法和系统。
根据本发明提供的海量小文件的分布式存储方法,包括:
磁盘分区步骤:将物理磁盘通过逻辑分区形成多个虚拟磁盘;
建立目录索引树步骤:基于所述虚拟磁盘根据海量小文件的文件命名规则进行分类,根据所述分类创建目录索引树;
文件存储步骤:根据文件命名规则解析所存储的海量小文件的文件名,获取海量小文件在所述目录索引树中的存储位置,存储海量小文件,对应的存储目录记为原始目录,并对海量小文件进行冗余存储,对应的存储目录记为冗余目录;
数据同步与恢复步骤:当出现所述原始目录、所述冗余目录两者中的文件数据不一致的情况时,触发数据同步与恢复操作。
优选地,所述磁盘分区步骤包括:
磁盘编号步骤:将所述物理磁盘进行编号,记为已编号物理磁盘,其中编号记为i,i=1,2,…,N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810918747.3/2.html,转载请声明来源钻瓜专利网。