[发明专利]增加的联机去重复效率的方法和系统有效
| 申请号: | 201380018034.7 | 申请日: | 2013-01-08 |
| 公开(公告)号: | CN104205066B | 公开(公告)日: | 2017-02-22 |
| 发明(设计)人: | D·M·鲍德温;N·P·博萨勒;J·T·奥尔森;S·R·帕蒂尔 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F12/00 | 分类号: | G06F12/00 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,辛鸣 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 增加 联机 重复 效率 方法 系统 | ||
技术领域
本发明总体上涉及计算系统,并且更特别地涉及增加的联机去重复(in-line deduplication)效率。
背景技术
在当今社会中,计算机系统是司空见惯的。计算机系统可在工作地点、在家或者在学校找到。计算机系统可包括用来处理和存储数据的数据存储系统或者磁盘存储系统。一个这种处理是数据去重复。数据去重复指代冗余数据的减少和/或消除。在数据去重复处理中,数据的重复副本被减少或者消除,从而分别留下最小量的冗余副本,或者数据的单个副本。使用去重复处理提供各种益处,诸如所需存储容量的减少和对网络带宽的减少的需要。由于这些以及其他益处,去重复近年来已经显现为计算存储系统中的高度重要技术领域。
发明内容
随着其中用户可以在存储云服务内的存储空间上拥有、创建、修改和/或删除容器和对象的存储云服务的显现,通过HTTP对存储空间的在线访问已经显著增加。这种存储云服务的用户通常在存储云服务提供商所披露的应用编程接口(API)的帮助下对它们拥有的云存储空间执行这些操作。尽管向用户披露API已经非常有用,但是将API用于对云存储服务执行操作已经在数据去重复领域对服务提供商提出了附加问题。因此,存在存储云服务提供商使用去重复技术来减少对存储云服务空间的消耗的需要。
各种实施例提供了用于计算环境中的增加的联机去重复效率的方法。一种方法包括通过计算环境中的处理器设备计算在n次迭代中用于从被请求用于联机去重复的对象提取的累积数据块的散列值。该方法还包括,对于n次迭代中的每一次,将第n个散列索引表中的用于累积数据块的计算出的散列值与存储装置中的现有对象的对应散列值相匹配。第n个散列索引表针对累积数据块中的每一个被构建。一旦在匹配期间检测到用于累积数据块之一的计算出的散列值的失配就退出第n个散列索引表。失配被确定为唯一对象并被存储。在创建对象存储库中的对象时以状态“成功”来响应客户端。作为离线后处理的一部分,用于整个对象的散列值被计算。利用用于对象的计算出的散列值和用于唯一对象的计算出的散列值来更新主散列索引表。另外,在离线处理中,利用在新唯一对象的累积数据块的第n次迭代时的散列值来更新第n个索引表。
各种实施例提供了用于计算环境中的增加的联机去重复效率的系统。一种系统包括在计算存储环境中可操作的处理器设备。在一个实施例中,该处理器被配置为在n次迭代中计算用于从被请求用于联机去重复的对象提取的累积数据块的散列值。该处理器还被配置为对于n次迭代中的每一次,将第n个散列索引表中的用于累积数据块的散列值与存储装置中的现有对象的对应散列值相匹配。第n个散列索引表针对累积数据块中的每一个被构建。一旦在匹配期间检测到用于累积数据块之一的计算出的散列值的失配就退出第n个散列索引表。失配被确定为唯一对象并被存储。用于整个对象的散列值被计算。利用用于对象的计算出的散列值和用于唯一对象的散列值来更新主散列索引表。另外,在离线处理中,利用在新唯一对象的累积数据块的第n次迭代时的散列值来更新第n个索引表。
还提供了包括用于计算环境中的增加的联机去重复效率的计算机程序产品的物理计算机存储介质(例如,具有一条或多条电线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪速存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备或者前述者的任意合适组合)。一种物理计算机存储介质包括通过计算环境中的处理器设备计算在n次迭代中用于从被请求用于联机去重复的对象提取的累积数据块的散列值的计算机代码。该物理计算机存储介质还包括,用于对于n次迭代中的每一次,将第n个散列索引表中的用于累积数据块的计算出的散列值与存储装置中的现有对象的对应散列值相匹配的计算机代码。第n个散列索引表针对累积数据块中的每一个被构建。一旦在匹配期间检测到用于累积数据块之一的计算出的散列值的失配就退出第n个散列索引表。失配被确定为唯一对象并被存储。用于整个对象的散列值被计算。利用用于对象的计算出的散列值和用于唯一对象的计算出的散列值来更新主散列索引表。另外,在离线处理中,利用在新唯一对象的累积数据块的第n次迭代时的散列值来更新第n个索引表。
附图说明
为了将容易地理解本发明的优点,将参考在附图中图示的具体实施例来呈现在上面简要描述的本发明的更特别描述。应理解,这些绘图仅描绘本发明的典型实施例并且因而不被认为限制其范围,将通过使用附图利用附加的具体说明和细节来描述和说明本发明,在附图中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380018034.7/2.html,转载请声明来源钻瓜专利网。





