[发明专利]一种面向备份任务的重复数据删除方法有效
申请号: | 201610110134.8 | 申请日: | 2016-02-29 |
公开(公告)号: | CN105786651B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 吴文峻 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 备份 任务 重复 数据 删除 方法 | ||
本发明公开了一种面向备份任务的重复数据删除方法,首先,划分备份任务;将硬盘上完成了全部查重过程的指纹仓库放入集合B‑bucket;然后,在内存中建立局部缓存和全局缓存;将B‑bucket中的元素放入全局缓存;将当前备份任务的所有指纹依次放入指纹仓库C‑bucket;当C‑bucket处于满态后更新,遍历并记录更新后的最大指纹与最小指纹;然后,在B‑bucket中寻找具有这两个指纹的指纹仓库,并加入局部缓存;对更新后的每一个指纹在局部缓存和全局缓存中进行查询并标记后,将未被标记的指纹保存到指纹仓库N‑bucket中;标记的指纹进行删除;最后,当N‑bucket满态后替换并加入局部缓存,并更新全局缓存。优点在于:解决了指纹查询瓶颈问题;缩小查重范围,提高重删效率;保持较高的吞吐率。
技术领域
本发明属于数据备份存储领域,描述了一种面向备份任务的重复数据删除方法。
背景技术
随着数据中心的能源消耗问题越来越受到IT产业的广泛关注,如何节约数据中心的能源消耗逐渐成为了研究人员们重点讨论的一项议题。而数据备份是数据中心的存储系统的主要应用之一;因此,应用合理的备份策略,降低存储系统能耗,是实现减少数据中心整体电能消耗的重要途径。
据统计,数据中心消耗的能源占全世界能耗的1.5%,而其中40%的能源来自数据中心的存储系统。研究人员和管理人员通常采用两种方式降低存储系统的能耗,一是从硬件开发上入手,提高存储系统本身的能耗效率,以更少的能源开销承担更多的存储负载;二是从负载均衡和节能调度出发,合理的安排存储系统的正常工作时间,使得更多设备获得更多的低功耗运行机会,在完成同样任务的情况下,降低整体能耗。
从应用角度分析,由于企业数据量的迅猛增长和数据传输率要求的不断提高,数据中心的海量存储空间和高带宽网络传输需求成为当前网络存储领域面临的严峻挑战。备份和归档系统急需有效地措施,提升存储的效率和系统的可扩展性以满足备份对容量和性能需求的高速增长。通过研究发现,在备份和归档存储系统中,高达80%~90%的数据是冗余的。利用这些应用数据高度冗余的特性,研究者们在已有存储技术的基础上提出了重复数据删除技术。它能够极大地降低网络存储系统的存储空间开销,同时节省网络带宽,并进一步降低数据中心的能耗和管理成本。
重复数据删除是基于数据自身的冗余度来检测数据流中的相同数据对象,只传输和存储唯一的数据对象副本,并使用指向唯一数据对象副本的指针替换其他重复副本。相比于传统的数据压缩技术,重复数据删除技术不仅可以消除文件内的数据冗余,还能消除共享数据集内文件之间的数据冗余。
近一段时间,重复数据删除已经成为一种引人注目的无损压缩技术,能够识别并消除存储过程中的重复数据,被应用到多种存储系统用于节省空间和网络带宽。当备份任务的数据经过重复数据删除时,需要的存储空间能够减少10到20倍,甚至更多。但是,重复数据删除并非在任何情况下都能取得理想的效果。在重删数据过程中,当数据总量超过一定规模,达到TB级甚至更高时,指纹查询瓶颈就会逐渐显现出来,因为这种重复数据删除技术需要一个完整的数据块指纹索引,能够映射到每个存储在介质上的数据块。然而,对于一般的磁盘之间备份任务的规模(10~100TB),将包含全部数据块指纹的索引放入内存是不切合实际的,而对于磁盘上索引的每一次查询的时间开销由相对较高,限制重删的整体吞吐率。
研究表明,重复数据删除的重删效果与进行重删的数据类型和数据内容有密切关系。而在关于重删技术的各项研究之中,缺少在能耗方向上的研究。块级别甚至更细粒度的重复数据删除过程的执行,对服务器的系统资源要求很高,时间开销也很大。这两项开销在重删效果较差时尤为明显,并直接导致能耗增加。所以,合理的安排重删过程的执行对存储系统的节能有重要的意义。
发明内容
本发明为了降低备份过程的总体能耗,通过控制重复数据删除过程的执行,针对不同备份任务进行重删,设计了基于双缓存机制的指纹查询算法;具体是一种面向备份任务的重复数据删除方法。
具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610110134.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种MCU的校准方法和系统
- 下一篇:数据的管理方法及装置