[发明专利]一种面向数据连续读取的重删纠删混合系统的数据放置方法有效
申请号: | 201610135198.3 | 申请日: | 2016-03-10 |
公开(公告)号: | CN105824720B | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 肖侬;邓明翥;陈志广;刘芳 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 湖南省国防科技工业局专利中心 43102 | 代理人: | 冯青 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向数据连续读取的重删纠删混合系统的数据放置方法器。基于各类分布式重复数据删除和纠删码混合存储系统,通过改变对数据分块和校验分块的放置策略,在保证系统可靠性不受任何影响的前提下,进一步提升数据连续读取时的读性能,其特征在于,不改变各条带的构成,通过将多个条带中所有的数据元素和所有校验元素分别连续放置,从而保证所有数据元素放置的连续性,消除原校验元素中断数据元素放置所带来的负载瓶颈,从而最大限度地提升数据连续读取时的并行度,实现各独立节点并行性的最大化利用,提升连续读的系统读性能。 | ||
搜索关键词: | 一种 面向 数据 连续 读取 重删纠删 混合 系统 放置 法器 | ||
【主权项】:
1.一种面向数据连续读取的重删纠删混合系统的数据放置方法,基于各类分布式重复数据删除和纠删码混合存储系统,通过改变对数据分块和冗余分块的放置策略,在保证系统可靠性不受任何影响的前提下,进一步提升数据连续读取时的读性能,其特征在于,不改变各条带的构成,通过将多个条带中所有的数据元素和所有冗余元素分别连续放置,从而保证所有数据元素放置的连续性,消除原冗余元素中断数据元素放置所带来的负载瓶颈,从而最大限度地提升数据连续读取时的并行度,提升连续读时的系统读性能, 具体步骤为:第一步,数据分块:采用定长分块的方式将文件或数据流进行分割,将其分割为若干个chunk数据分块,分块粒度的大小应当根据应用场景来进行选择,如果分块粒度越大,则后期计算开销越小,但是重删效果不够明显,反之,如果粒度过小,则会引入过多的计算开销,影响系统系能;第二步,计算特征值:计算每一块chunk的特征值,该特征值将作为该chunk的唯一标识,并作为下一步判断是否重复的依据,通常特征值的计算采用抗冲突能力较强的hash加密算法,如MD5、SHA‑1;第三步,查询索引表:将计算好的特征值与现有的索引表中的特征值逐一对比,用以判断其代表的chunk是否重复,该索引表随着数据量的增大而增大,因此当数据量庞大时降低系统性能;第四步,去除重复数据:根据查询结果,如果是重复的chunk则可以直接丢弃,但需要将节点号保存下来,将其元数据指针指向重复的chunk,以便后面需要访问时找到数据;第五步,冗余编码:查询后判断是不重复的chunk,则将其特征值作为一个新的条目追加到索引表中,并根据分组大小对k个此类唯一块进行冗余编码,生成m个冗余分块,所使用的具体的编码和编码参数应该根据系统的可靠性需求进行选择;第六步,放置存储分块:根据节点数和冗余编码参数确定多个分组内数据和冗余的放置位置,根据放置算法为每个数据分块和冗余分块分配适当的地址,并进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610135198.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置