[发明专利]部分去重复的文件的优化有效
申请号: | 201210320201.0 | 申请日: | 2012-08-31 |
公开(公告)号: | CN102880663A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | R·卡拉赫;K·哈桑;P·A·奥尔泰安;J·R·本顿;C·H·张;A·古普塔 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 胡利鸣 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 部分 重复 文件 优化 | ||
1.一种在计算机环境中至少部分在至少一个处理器上执行的方法,包括:将具有至少一个未去重复的部分(104)的文件(102)重新优化成完全去重复的文件(402,404),包括处理(506)所述文件的每个未去重复的部分以确定至少一个块(310,320);将所述至少一个块提交(520)给块存储(110);以及将与所述文件相关联的元数据(106)修改(616)为包括对每个块的引用。
2.如权利要求1所述的方法,其特征在于,还包括:将所述文件中被去重复的部分隔开的两个未去重复的部分组合成包括每个未去重复的部分和所述去重复的部分的单个未去重复的部分,然后处理所述单个未去重复的部分。
3.如权利要求1所述的方法,其特征在于,处理至少一个未去重复的部分包括:定义从先于或等于与所述未去重复的部分相关联的起始文件偏移量的一文件偏移量开始的块;以及通过与完全包含在在先的去重复部分中的最后一个块对齐来确定所述文件偏移量。
4.如权利要求1所述的方法,其特征在于,处理至少一个未去重复的部分包括:通过在后继于或等于与所述未去重复的部分相关联的结束文件偏移量的一文件偏移量处结束所述部分的分块来定义块;以及基于所述未去重复的部分的分块与同在先的去重复的部分相关联的一个或多个现有块对齐之处来确定所述结束文件偏移量。
5.如权利要求4所述的方法,其特征在于,分块继续到超出所述未去重复的部分的结尾,并且还包括:确定块对齐是否在基于大小的阈值或基于块数目的阈值内被实现,并且如果块对齐未在所述阈值内实现,则停止分块。
6.如权利要求1所述的方法,其特征在于,还包括:暂停并随后恢复所述暂停以前的对所述文件的重新优化以及所述至少一个块到所述块存储的提交,其中所述暂停基于一个或多个标准进行,所述标准包括文件大小、执行所述重新优化的机器何时变为非空闲、以及所述机器何时将关闭。
7.如权利要求1所述的方法,其特征在于,所述块被提交给块存储,并且还包括:从所述块存储中对由于所述文件的重新优化而不再被引用的至少一个块进行垃圾收集。
8.一种在计算环境中的系统,包括去重复机制(116),所述去重复机制(116)被配置为将具有至少一个未去重复的部分(306,316)的文件(102)重新优化成完全去重复的文件(402,404),所述去重复机制被配置为:将每个未去重复的部分分块(610)成至少一个经重新优化的块(310,320);在完全重新优化所述文件以前将至少一个经重新优化的块提交(520)到块存储(110)中;以及修改(616)表示被提交的文件的每个块的文件元数据(106)。
9.如权利要求8所述的方法,其特征在于,所述去重复机制将所述文件分区成子文件分区,在开始重新优化下一子分区以前或者当最后一个子文件分区已经被重新优化时提交每个子文件分区的每个经重新优化的块;以及基于哪个子文件分区已经被重新优化来截短所述文件。
10.一个或多个具有计算机可执行指令的计算机可读介质,所述计算机可执行指令在被执行时执行以下步骤,包括:
为文件(102)的未去重复的部分(306,316)定义(514)块(310,320);
使所述块的块边界与同所述文件的至少一个去重复的部分相关联的文件偏移量(302,308)对齐(518);
基于所述块边界更新(520)与所述文件相关联的元数据(106);以及
将所述块提交(520)给块存储(110)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320201.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含固体颗粒的杂粮食品及其加工方法
- 下一篇:一种硅酸钙板