[发明专利]一种基于子模模型的数据备份方法和系统有效
申请号: | 201710203404.4 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107015888B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 华宇;吴婕;冯丹;左鹏飞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 子模 模型 数据 备份 方法 系统 | ||
本发明公开了一种基于子模模型的数据备份方法和系统,属于计算机存储技术领域。本发明方法首先对数据流进行分块并且分别组成不同的数据段;之后计算每个数据段每个数据块的指纹,并且查询指纹索引得到重复数据块引用的容器信息;再建立子模函数最大化模型选取含有更多可引用无冗余的数据块的容器;最后将引用这些容器的数据块去重,重写引用其他容器的碎片数据块。本发明还实现了一种基于子模模型的数据备份系统。本发明技术方案能够去除更多的重复数据块,并且减少冗余和非引用数据块对恢复带宽的消耗,在保证较高的去重率的同时提高恢复性能。
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种基于子模模型的数据备份方法和系统。
背景技术
在备份系统中,周期性地备份数据会耗费大量的存储空间,而且备份之间存在大量的冗余数据,所以现常用数据去重技术(重复数据删除技术)来消除这些冗余数据,减少存储开销。
然而,在基于去重的备份系统中,新版本与旧版本的数据备份共享数据块,从而使得原本在逻辑上连续的数据流分散地存储在不同的容器(Container:去重系统中磁盘上数据读写的基本单位)中,形成了大量数据碎片,严重的降低了数据的恢复性能。原因在于,首先,为了读取数据流中连续的数据块进行的磁盘访问从原本的有序操作变成了随机访问,然而磁盘上随机访问会耗费大量寻道时间;其次,在恢复过程中,数据碎片的存在使得一些含有少量可引用的数据块的容器也被预取到内存里,其中含有的大量未被引用的数据块耗费了有限的磁盘带宽,降低了恢复速度。
现有一些基于容器选择的碎片消除算法通过在备份过程中选择性重写一些数据碎片来提高恢复性能。例如,有方法将数据流分段,对于每个数据段优先选择含有更多可引用数据块的容器进行引用,对于原本可以引用剩下没有被选择的容器的数据块进行重写;还有方法通过设定容器利用率(容器中能够被数据流引用的数据块数目占所有数据块数目的比例)阈值来选取容器,首先对于每个备份的数据流计算每个容器的利用率,如果容器利用率高于阈值则将被选中来去重数据流的数据块,否则备份数据流中引用该容器的所有数据块将被重写。其中,重写是指,已存储的一样的数据块保留不变,新来的一样的数据块写入新的容器中。
然而,随着数据备份的次数和文件数目的增加,越来越多的数据块被重写到新的容器中,造成了容器间存在大量的冗余数据。尽管上述碎片消除方法都减少了在恢复过程中的预取容器含有的非引用数据块的数目,然而由于忽略了容器间存在的冗余数据块,它们在确定容器利用率时会产生误判,即有些被选择的容器的利用率实际上低于预期。在这些消除方法中,如果容器中存在与数据流中的数据块一样的数据块,那么它将被当作引用的数据块计入容器利用率中。但是,对于多个被选择容器中的大量相同的数据块,一旦其中一个数据块被选择来去重和恢复数据流中所有同内容的数据块,那么其他的容器中内容相同的数据块就不会被引用而变成冗余的数据块了,因此这些数据块并不是引用的数据块,不能被计入容器利用率。误判会导致含有大量冗余数据块的容器被选择,浪费恢复过程的带宽,降低恢复性能。
由此可见,基于去重的备份系统中,在恢复数据流时,预取的容器中含有的非引用和冗余的数据块都会降低数据恢复性能。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于子模模型的数据备份方法和系统,其目的在于优先选择含有更多可利用且非冗余的数据块的容器,使得更多数据块被去重,并且重写未被选择去重的数据碎片以及减少了恢复时访问不被利用和冗余的数据块耗费的磁盘读写次数,同时提高了数据去重率和恢复性能,解决了现有技术在恢复数据流时,预取的容器中含有的非引用和冗余的数据块都会降低数据恢复性能的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于子模模型的数据备份方法,所述方法包括以下步骤:
(1)数据预处理:将待备份数据流分成多个数据块,然后再组成固定大小的数据段,将数据段作为去重和恢复操作的基本单位;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203404.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置