[发明专利]重复数据删除方法和设备在审
申请号: | 201310385124.1 | 申请日: | 2013-08-29 |
公开(公告)号: | CN104424268A | 公开(公告)日: | 2015-03-18 |
发明(设计)人: | 李玉猛;麦克西斯;李雅洁 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F12/06 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;赵林琳 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 数据 删除 方法 设备 | ||
技术领域
本发明涉及存储系统,更具体地,涉及重复数据删除方法和设备。
背景技术
重复数据删除系统(data de-duplication system)能够消除数据存储中的冗余数据,由此使得在现有的存储容量中存储更多数据,并且通过将冗余数据替换为指针或链接来降低总的存储开销。
现有的重复数据删除系统中可以采用基于数据块(data chunk)的冗余数据删除技术。在数据块划分阶段,引入滑动的窗口用于判定数据块的边界。例如,可以利用Rabin指纹算法计算滑动窗口内数据块的数据指纹。当计算出的结果满足一定条件,就将窗口起始处标记为数据块的结尾,通过不断重复滑动窗口并计算数据指纹来实现对数据对象的数据块划分。为每个数据块计算哈希(HASH)值。通过比较各个数据块与已记录的数据块的哈希(HASH)值,来确定是否存在冗余的数据块。
当数据对象通过指纹算法处理时,以Rabin指纹算法为例,一个字节集合(也称字节串)理论上将具有一个唯一的64位Rabin指纹哈希值。当加密哈希值的后18位为全0(称为残留值)时,则认为找到了字节集合的数据块的边界,这些相应的字节集合则称为“数据块”。换而言之,当执行218次哈希计算时,一个数据块将产生平均256K字节的大小,即,标准数据块的大小为256K字节。因此,预定的残留值将指示数据块的平均大小以及重复数据删除系统能够达到的重复数据删除率(deduplication ratio)。可以选择一个指纹掩码(fingerprinting mask)以用来寻找字节集合的残留值。指纹掩码是一个在预定范围内的随机值。
现有技术尝试通过改变数据块划分算法来提高重复数据删除率。但是,由于针对同一数据对象所得的数据块分布是唯一的,因此找到冗余数据的能力有限。而且由于通常无法预先知晓数据对象的重复数据分布,因此无法设计出针对各种数据对象均具有较高重复数据删除率的数据块划分算法。
需要提供一种新颖的重复数据删除技术方案,以至少部分地解决现有技术存在的技术问题。
发明内容
为了解决现有技术中存在的问题,本发明的实施方式提供一种基于多个逻辑通道进行数据块划分的重复数据删除方案。
根据本发明的一个方面,提供了一种用于重复数据删除的方法。该方法包括:在多个逻辑通道的每个逻辑通道中使用不同标准对于当前数据对象进行数据块划分;分别在每个逻辑通道中,基于在该逻辑通道中对所述当前数据对象划分的数据块,寻找当前数据对象的一个或多个第一冗余数据块;以及基于找到的当前数据对象的全部第一冗余数据块,对当前数据对象进行重复数据删除。
根据本发明的另一个方面,提供了一种重复数据删除系统。该系统包括:数据块划分单元,被配置用于在多个逻辑通道的每个逻辑通道中使用不同标准对于对一个当前数据对象进行数据块划分;第一冗余数据块确定单元,被配置用于分别在每个逻辑通道中、基于在该逻辑通道中对所述当前数据对象划分的数据块寻找当前数据对象的一个或多个第一冗余数据块;以及重复数据删除单元,被配置为基于第一冗余数据块确定单元所找到的全部第一冗余数据块,对当前数据对象进行重复数据删除。
根据本发明的另一个方面,还提供了一种计算机程序产品,包括计算机可读指令,当由处理执行时,所述计算机可读指令执行根据本发明一个实施方式的重复数据删除方法。
根据本发明的各个实施方式能够提供相对于单逻辑通道的技术方案而言更高的重复数据删除率。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2示出了根据本发明一个实施方式的重复数据删除方法的流程图。
图3示出了数据对象的示例的图例。
图4A和4B分别示出了根据本发明一个实施方式在不同逻辑通道中对图3所示数据对象确定第一冗余数据块的结果。
图5示出了根据本发明一个实施方式对于数据对象最终确定的数据块分布。
图6示出了根据本发明一个实施方式的一种重复数据删除系统的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310385124.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于本体的智能家居语义查询方法和装置
- 下一篇:一种数据报表的生成方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置