[发明专利]在重复数据删除系统中减少摘要存储消耗的方法和系统有效
申请号: | 201410096289.1 | 申请日: | 2014-03-14 |
公开(公告)号: | CN104199815B | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | L.阿罗诺维克 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 邸万奎 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 数据 删除 系统 减少 摘要 存储 消耗 方法 | ||
技术领域
本发明一般涉及计算机,更具体地涉及在计算环境中通过跟踪相似性搜索结构中的相似性元素的数目以去除重复数据删除系统中的摘要而减少摘要存储消耗。
背景技术
在如今社会中,计算机系统很普遍。可以在工作地点、家中或学校中发现计算机系统。计算机系统可以包括数据存储系统或盘存储系统以处理和存储数据。每天必须处理大量数据,并且当前的趋势暗示着这些量在可见的将来将继续不断增加。缓解该问题的有效方法是使用重复删除。重复删除系统背后的想法是通过定位重复的数据并仅存储其第一个存在(occurrence)而利用可用数据的大部分被一次又一次地复制的事实。后续的复本被指向所存储的存在的指针所代替,如果数据确实是重复的,则这大大降低存储要求。
发明内容
在一个实施例中,提供了一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪当前在相似性搜索结构中的相似性元素的数目以将摘要从存储库中去除的方法。在一个实施例中,仅通过示例,重复删除处理包括为输入数据计算摘要并将所述摘要存储在对应于部块(chunk)集的集合中。为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中。为每一个部块集保持当前包含在所述相似性搜索结构中的与每个部块集关联的相似性元素的数目,并且当特定部块集的此数目变得低于阈值时,从存储库中去除与该部块集关联的摘要集合。
在另一实施例中,提供了一种通过使用计算环境中的处理器设备在重复数据删除系统中跟踪相似性搜索结构中的相似性元素的数目而减少摘要存储消耗的系统,包括:第一可执行部分,将输入数据分区(partition)为部块并将所述部块分组为部块集;第二可执行部分,为所述输入数据计算摘要并将所述摘要存储在对应于所述部块集的集合中;第三可执行部分,为所述输入数据计算相似性元素并将所述相似性元素存储在相似性搜索结构中;第四可执行部分,为每一个所述部块集保持当前包含在所述相似性搜索结构中的与所述部块集关联的相似性元素的数目;以及第五可执行部分,当部块集的相似性元素的数目变得低于阈值时,从存储库中去除与该部块集关联的摘要。
在前述示例方法实施例之外,还提供了其它示例系统,并提供相关优势。前述发明内容部分被提供用于以简化的形式引入一组概念,它们会在下面的具体实施方式部分被进一步描述。该发明内容部分不意在识别所主张权利的主题的关键特征或核心特征,也不意在被用作确定所主张权利的主题的范围。所主张权利的主题不限于解决背景技术部分中说明的任何或全部优点的实施方式。
附图说明
为了更容易理解本发明的优点,将参照在附图中示出的具体实施例呈现上面简要描述的本发明的更具体的描述。应理解,这些附图描绘了本发明的实施例,但不因此被认为是限制其范围,将通过使用附图描述和说明本发明的附加特征和细节,其中:
图1是示出可以实现本发明的方面的具有示例存储设备的计算系统环境的框图;
图2是示出可以实现本发明的方面的计算机系统中的数据存储系统的硬件结构的框图;
图3是示出可以实现本发明的方面的、基于重复数据删除系统中的重复删除处理中的相似性搜索进行摘要检索的示例方法的流程图;
图4是示出可以实现本发明的方面的、基于重复数据删除系统中的重复删除处理中的相似性搜索进行摘要检索的示例替代方法的流程图;
图5是示出可以实现本发明的方面的、在重复数据删除系统中使用滚动哈希值(rolling hash value)的单个线性计算而高效地计算摘要块的相似性搜寻值和边界两者的示例方法的流程图;
图6是示出可以实现本发明的方面的、包含用于每个部块集的记录的紧凑数据结构的框图;
图7是示出可以实现本发明的方面的、用于降低重复数据删除系统中的摘要存储消耗的示例方法的流程图;
图8是示出可以实现本发明的方面的、用于降低重复数据删除系统中的摘要存储消耗的替代示例方法的流程图;以及
图9是示出可以实现本发明的方面的、在重复数据删除系统中跟踪当前在相似性搜索结构中的相似性元素的数目以用于从存储库中去除与该部块集关联的摘要的示例方法300的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410096289.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于概要结构的流数据立方体构建方法
- 下一篇:一种文档框架排版方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置