[发明专利]去重复的文件的部分召回有效
申请号: | 201110444139.1 | 申请日: | 2011-12-15 |
公开(公告)号: | CN102591944A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | A·古普塔;R·卡拉赫;C·H·张;J·R·本顿;J-T·普芬宁 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 潘明婳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重复 文件 部分 召回 | ||
技术领域
本发明涉及去重复的文件的部分召回。
背景技术
数据去重复(有时也称为数据优化)指的是消除存储系统中的冗余数据从而减少需要被存储在盘上或需要在网络上进行传送的数据的物理字节量,而不会损害原始数据的保真性和完整性。通过减少存储和/或传送数据所需的资源,数据去重复因此导致硬件成本(用于存储)以及数据管理成本(例如,备份)的节约。随着数字化存储的数据的数量增长,这些成本节约变得重要。
数据去重复通常使用用于消除持久存储的文件内部及其之间的冗余性的技术的组合。一种技术用于标识一个或多个文件中的数据的相同部分,并在物理上只存储一个唯一部分(块),同时与文件相关联地维护对该块的引用。另一技术是例如通过存储经压缩的块来将数据去重复与压缩进行混合。
去重复的文件的数据因此被存储在块存储中的诸个块或压缩的块中,其中文件本身被保留为包括对这些块的引用的“残根”。当用户或应用需要访问去重复的文件时,去重复引擎将数据带回到存储器中(被称为再水合(rehydration))或带回到盘中(被称为召回)。当用户或应用修改该数据时,可能需要部分的旧的经优化数据来确保数据一致性和完整性。
再水合或召回的过程由于(可能)对块解压缩的需求、由于块化而引入的文件碎片、以及由于块存储的位置/实现而在数据访问中引入了延迟。完整的文件召回引入了高延迟以及相对可观的I/O超载。当文件较大时,延迟和资源消耗问题更为恶化。
此外,当召回了完整的大文件时,去重复引擎可能需要再次对文件去重复。这要求大量资源并影响总体数据去重复吞吐量,考虑到典型的去重复系统需要管理的大量数据,这也是一挑战。
发明内容
提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些代表性概念。本发明内容不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。
简要而言,此处所述的本主题的各个方面针对管理文件数据的技术,使得文件可处于部分去重复的状态,在该状态中,一些文件数据在块存储中被去重复,一些文件数据被召回到文件中,即代替对块存储的引用而被召回到文件的存储卷中。当写入一数据范围时,文件可从完全去重复状态变为部分去重复状态。这种改变可通过如下来进行:从块存储中读取块,并将块的至少部分提交(例如,刷新)到存储卷或包含文件作为被召回范围的其它介质。与文件相关联地(例如,在重解析点)维护跟踪信息,以跟踪已经召回了哪些数据范围以及哪些数据范围驻留在块存储中。访问跟踪信息以按需从适当的源返回数据。
在一个方面中,可读取块以获取比所需的更多的数据,诸如为了与文件系统分配边界对齐、和/或预期到访问附加数据的需求。例如,文件可被分成固定大小的分区,任何分区都包含被充分填充至分区边界的召回数据。
在另一方面中,跟踪信息可作为去重复文件的元数据来维护,例如,作为位图相关(辅助)结构,其每分区具有一个比特以指示该分区是否包含召回的文件数据或数据是否驻留在块存储中。跟踪信息可被维护在重解析点缓冲区、替换数据流、或文件系统提供用于存储关于文件的元数据的任何其它装置中。元数据可存储在有限量的空间中。如果需要更多空间,则位图相关结构中的数据可被用来表示多于一个的分区,和/或可被压缩(例如,编码)以减少所消耗的空间。可召回文件数据以使得压缩更为高效。
结合附图阅读以下具体实施方式,本发明的其他优点会变得显而易见。
附图说明
作为示例而非限制,在附图中示出了本发明,附图中相同的附图标记指示相同或相似的元素,附图中:
图1是表示将去重复文件的诸个范围召回成部分去重复文件和/或访问部分去重复文件的数据的示例组件的框图。
图2是对包含数据范围的诸个块如何被调用并在盘上被对齐的示意图。
图3是对包含数据范围的诸个块外加附加快如何被调用并在盘上被对齐的示意图。
图4是包括缓冲区的去重复重解析点的示意图,该缓冲区包含用于跟踪部分去重复文件的哪些范围已经被召回以及哪些范围被保留在块存储中的召回位图。
图5和6包括表示在一个示例实现中使用的部分召回算法的各步骤的流程图。
图7A-7C是对替换示例实现中部分去重复文件数据可如何被召回并与用户数据一起被写回的示意图。
图8-10包括表示在替换示例实现中使用的部分召回算法的各步骤的流程图。
图11是表示其中可实现此处描述的各种实施例的示例性非限制联网环境的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110444139.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在群集共享卷中的卷和文件系统
- 下一篇:具有容易安装的装饰环组件的相机