[发明专利]一种面向数据连续读取的重删纠删混合系统的数据放置方法有效

专利信息
申请号: 201610135198.3 申请日: 2016-03-10
公开(公告)号: CN105824720B 公开(公告)日: 2018-11-20
发明(设计)人: 肖侬;邓明翥;陈志广;刘芳 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F11/14 分类号: G06F11/14
代理公司: 湖南省国防科技工业局专利中心 43102 代理人: 冯青
地址: 410073 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种面向数据连续读取的重删纠删混合系统的数据放置方法器。基于各类分布式重复数据删除和纠删码混合存储系统,通过改变对数据分块和校验分块的放置策略,在保证系统可靠性不受任何影响的前提下,进一步提升数据连续读取时的读性能,其特征在于,不改变各条带的构成,通过将多个条带中所有的数据元素和所有校验元素分别连续放置,从而保证所有数据元素放置的连续性,消除原校验元素中断数据元素放置所带来的负载瓶颈,从而最大限度地提升数据连续读取时的并行度,实现各独立节点并行性的最大化利用,提升连续读的系统读性能。
搜索关键词: 一种 面向 数据 连续 读取 重删纠删 混合 系统 放置 法器
【主权项】:
1.一种面向数据连续读取的重删纠删混合系统的数据放置方法,基于各类分布式重复数据删除和纠删码混合存储系统,通过改变对数据分块和冗余分块的放置策略,在保证系统可靠性不受任何影响的前提下,进一步提升数据连续读取时的读性能,其特征在于,不改变各条带的构成,通过将多个条带中所有的数据元素和所有冗余元素分别连续放置,从而保证所有数据元素放置的连续性,消除原冗余元素中断数据元素放置所带来的负载瓶颈,从而最大限度地提升数据连续读取时的并行度,提升连续读时的系统读性能, 具体步骤为:第一步,数据分块:采用定长分块的方式将文件或数据流进行分割,将其分割为若干个chunk数据分块,分块粒度的大小应当根据应用场景来进行选择,如果分块粒度越大,则后期计算开销越小,但是重删效果不够明显,反之,如果粒度过小,则会引入过多的计算开销,影响系统系能;第二步,计算特征值:计算每一块chunk的特征值,该特征值将作为该chunk的唯一标识,并作为下一步判断是否重复的依据,通常特征值的计算采用抗冲突能力较强的hash加密算法,如MD5、SHA‑1;第三步,查询索引表:将计算好的特征值与现有的索引表中的特征值逐一对比,用以判断其代表的chunk是否重复,该索引表随着数据量的增大而增大,因此当数据量庞大时降低系统性能;第四步,去除重复数据:根据查询结果,如果是重复的chunk则可以直接丢弃,但需要将节点号保存下来,将其元数据指针指向重复的chunk,以便后面需要访问时找到数据;第五步,冗余编码:查询后判断是不重复的chunk,则将其特征值作为一个新的条目追加到索引表中,并根据分组大小对k个此类唯一块进行冗余编码,生成m个冗余分块,所使用的具体的编码和编码参数应该根据系统的可靠性需求进行选择;第六步,放置存储分块:根据节点数和冗余编码参数确定多个分组内数据和冗余的放置位置,根据放置算法为每个数据分块和冗余分块分配适当的地址,并进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610135198.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top