[发明专利]基于时序聚合算法的海量小文件实时存储方法及装置有效

申请号：	201611104325.X	申请日：	2016-12-05
公开（公告）号：	CN106776967B	公开（公告）日：	2020-03-27
发明（设计）人：	朱东杰;张凯;赵奇隆;杜海文;曲荣宁;顾天凯;逄志弘;毛尉茜;李亚;彭暄	申请（专利权）人：	哈尔滨工业大学（威海）;威海翰宝网络科技有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/172;G06F16/13
代理公司：	北京怡丰知识产权代理有限公司 11293	代理人：	孙小栋;于振强
地址：	264209***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于时序聚合算法海量文件实时存储方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时序聚合算法的海量小文件实时存储方法，其特征是包括以下步骤：

(1)使用分布式系统进行数据的时序处理，在代理节点中，根据文件的时间先后顺序进行文件对象逻辑上的排序，在存储节点中进行文件的物理排序，形成时序数据队列；

(2)将时序数据队列进行逻辑分配到相应聚合空间；

(3)在存储节点中进行相应聚合空间到物理存储分区的逻辑分配；

(4)指定分区的聚合空间数据在对应存储节点进行存储操作；

所述海量小文件实时存储方法的具体步骤包括：

(1)在代理节点中，根据文件的时间先后顺序进行文件对象逻辑上的排序，在存储节点中进行文件的物理排序，形成时序数据队列；

(2)在代理节点中，进行已逻辑排序的小文件到合并文件的逻辑聚合处理，并得到合并文件名作为该聚合空间的唯一标识，合并文件名由代理节点中系统当前时间使用MD5加密算法生成；

(3)代理节点进行小文件对象的语义标注，语义标注由合并文件名、聚合空间状态标记和合并文件中小文件顺序的偏移量组成；

(4)系统代理节点根据一致性哈希算法生成映射信息，映射信息由小文件名、合并文件名、生成时间、物理设备编号、物理分区编号组成；代理节点将映射信息存储到映射信息数据库中；

(5)代理节点将标注过的小文件名的存储请求转发到存储节点，由存储节点完成数据物理聚合存储操作；

(6)在存储节点中，根据合并文件名生成文件队列，合并文件名作为队列的唯一标识，根据小文件名中的语义标注分配到相应队列，标注中的合并文件名是文件分配指定队列的依据，当小文件的标注中状态标记为初始状态时，将物理数据层海量小文件信息加入队列，同时写入磁盘；当标注中状态标记为维持状态时，队列不发生变化；当标记为释放状态时，将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息。

2.根据权利要求1所述的基于时序聚合算法的海量小文件实时存储方法，其特征在于，读取已经完成存储操作的小文件的过程包括以下步骤：

步骤S601，开始；

步骤S602，输入需要读取的文件名objName，设置文件大小阈值K；

步骤S603，判断objName文件的大小是否大于K，如果大于K，进入步骤S612，否则进入步骤S604；

步骤S604，通过查询数据映射信息，找到合并文件名MobjName，得到一级索引；

步骤S605，通过BoomFilter过滤，如果过滤成功，进入步骤S606，否则进入步骤S609；

步骤S606，根据MobjName和objName找到二级索引；

步骤S607，根据所得到的二级索引读取文件；

步骤S608，结束；

步骤S609，判断文件是否在内存中，如果在内存中，则进入步骤S610，否则进入步骤S611；

步骤S610，从内存中读取文件，进入步骤S611；

步骤S611，返回未查找到的错误信息，进入步骤S608；

步骤S612，直接读取文件，进入步骤S608。

3.一种基于时序聚合算法的海量小文件实时存储装置，其特征是，包括：

数据预处理模块，被配置为，使用分布式系统进行数据的时序处理，在代理节点中，根据文件的时间先后顺序进行文件对象逻辑上的排序，在存储节点中进行文件的物理排序，形成时序数据队列；

数据逻辑聚合模块，被配置为，对时序数据队列到相应聚合空间的逻辑分配；

数据物理映射模块，被配置为，在存储节点中进行相应聚合空间到物理存储分区的逻辑分配；

数据物理聚合模块，被配置为，指定分区的聚合空间数据在对应存储节点进行存储操作；

所述数据逻辑聚合模块被配置为：

在代理节点中，进行已逻辑排序的小文件到合并文件的逻辑聚合处理，并得到合并文件名作为该聚合空间的唯一标识，合并文件名由代理节点中系统当前时间使用MD5加密算法生成；

代理节点进行小文件对象的语义标注，语义标注由合并文件名、聚合空间状态标记和合并文件中小文件顺序的偏移量组成；

所述数据物理映射模块，被配置为：

代理节点根据一致性哈希算法生成映射信息，映射信息由小文件名、合并文件名、生成时间、物理设备编号、物理分区编号组成；代理节点将映射信息存储到映射信息数据库中；

代理节点将标注过的小文件名的存储请求转发到存储节点，由存储节点完成数据物理聚合存储操作；

所述数据物理聚合模块，被配置为：

在存储节点中，根据合并文件名生成文件队列，合并文件名作为队列的唯一标识，根据小文件名中的语义标注分配到相应队列，标注中的合并文件名是文件分配指定队列的依据；

当小文件的标注中状态标记为初始状态时，将物理数据层海量小文件信息加入队列，同时写入磁盘；

当标注中状态标记为维持状态时，队列不发生变化；

当标记为释放状态时，将文件加入队列后把队列内容批量写入磁盘并重置队列状态信息，同时进行新队列的生成以及数据的重新分配操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学（威海）;威海翰宝网络科技有限公司，未经哈尔滨工业大学（威海）;威海翰宝网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611104325.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于时序聚合算法的海量小文件实时存储方法及装置有效

专利文献下载