[发明专利]千万级小文件数据的一种读写解决策略在审
申请号: | 201410718009.6 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104391961A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 张砚波;吴丙涛 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 千万 文件 数据 一种 读写 解决 策略 | ||
技术领域
本发明涉及计算机应用技术领域,具体地说是一种千万级小文件数据的一种读写解决策略。
背景技术
在现阶段的读取、存储领域小文件是数据访问、使用的最常见的数据形式。相对于大文件的条带化技术进行切片,来提高用户对文件访问的并发性,小文件(≤64KB)由于其不利于条带化,传统的方法一般是采用将单个文件存储在单个数据服务器上的策略,但是当小文件的数量到达一定程度之后,对小文件的大量地重复访问将会给数据服务器带来性能上的负担及I/O瓶颈问题,由于互联网上的数据信息大多以高频率的小文件形式表现出来,而且在一般用户的信息读取、存储中,对小文件的读取、存储较多,因此对互联网上高频率的小文件读/写性能的研究有重要的现实意义。
在现阶段, 传统的针对千万级小文件的处理、操作等管理上主要存在以下3个方面的问题:
1、由于小文件的访问频率较高,需要多次访问磁盘,所以磁盘I/O的性能较低;
2、因为文件比较小,容易形成文件碎片而造成磁盘空间的浪费;
3、为每个小文件请求建立一个连接时容易产生网络时延,降低了小文件的读取速率。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种千万级小文件数据的一种读写解决策略。
本发明的技术方案是按以下方式实现的,其特点是设计在存储小文件时通过采用开辟大块的连续磁盘空间的方式来存储大量的小文件;首先将磁盘空间划分为多个块,每个块的大小为64KB,大文件的连续磁盘空间就由这一系列块所组成,当遇到的文件比较小时,每个小文件只能存放在单个块中,不能跨越2个块存放,每个文件数据都存放在连续的磁盘空间上,在一个块中存放多个小文件A1,A2,A3,A4和A5为5个文件,文件与文件之间连续存放, A1与A2,A3与A4,红色部分为此块的碎片,当出现文件的大小小于这些碎片的大小时,应优先把文件存放在这些碎片中,本发明的存储布局中设计的是将逻辑上连续的数据尽可能地存储在物理磁盘的连续空间上,将同一个文件的数据或将同一个文件夹下的文件数据尽可能地存储在连续的磁盘空间块上,每一个文件夹将拥有一个或多个块,这些块都只存放此文件夹的文件;
在本系统的数据存储结构中,我们将文件信息节点的属性信息存放在元数据服务器上,在I/O服务器上,只需要知道文件的磁盘空间信息即可进行访问,在I/O服务器上,只需要记录文件的磁盘空间信息,而不需要记录文件的其他属性;对Node的数据结构进行简化设计,只保留文件的磁盘空间信息以及属于它的少量数据成员;
针对本系统的数据存储访问频率问题,首先,设计一个全局变量NodeList,NodeList是对Node的一个排序链表,根据文件的访问频率进行排序,它是为了实现优化文件传输而设计的,为整个小文件读取、存储解决方案服务。NodeList是对与每个文件夹而服务的,根据文件夹里的每个文件的访问频率形成一个排序列表,当用户访问该文件夹里的某个文件时,系统会自动地将这个列表里高访问频率的文件一起发送过去设定一个高访问频率的阈值 ,并将所有访问频率高于的文件顺序分成多个组,每个组可能包含多个文件,组中所有文件大小之和不超过64KB,每当用户请求当前文件夹中的一个文件时,系统会按照顺序将一个组的文件一起发送过去,从而降低文件传输时延,,的计算公式如下:
为文件夹每个文件的访问频率,n为当前文件夹中的文件个数,N由用户自己设置数值。
本发明的优点是:
(1)、主要是通过将逻辑上连续的小文件数据尽可能的存储在物理磁盘的连续空间之内,这样就提高用户对文件访问的并发性操作,从而提高了小文件的访问性能;
(2)、采用Cache技术充当元数据服务器的角色,同时通过设计一种简化的小文件信息节点数据结构Node,大大提高Cache利用率和小文件读取性能;
(3)、设计的策略中针对充当元数据服务器的cache的频繁I/O请求,读取时采用提前发送批量的高访问率的小文件方式来降低频繁的I/O操作,提升了小文件传输性能,可以更好的为小文件用户提供更好服务。
实施方式
下面对本发明的千万级小文件数据的一种读写解决策略作以下详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410718009.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置