[发明专利]一种快速差量压缩方法有效
| 申请号: | 201510927001.5 | 申请日: | 2015-12-14 |
| 公开(公告)号: | CN105515586B | 公开(公告)日: | 2019-04-12 |
| 发明(设计)人: | 夏文;冯丹;李春光;江泓 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | H03M7/30 | 分类号: | H03M7/30 |
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 压缩 方法 | ||
本发明公开了一种快速差量压缩方法,包括:对差量压缩中的基准块B进行基于内容的快速切分,以得到多个单词,从而构成单词库,对与基准块B相似的数据块A进行基于内容的快速切分,并且对快速切分期间检测到的重复单词进行放大,以得到重复单词和非重复单词,对得到的重复单词和非重复单词按切分顺序依次进行编码和储存,并分别使用两种不同的数据格式来记录重复单词和非重复单词,以得到差量数据块△B,A,在需要对差量数据块△B,A进行解码操作时,依次从△B,A中获取两种数据格式的记录,从而依次获得数据块A的所有单词,将这些单词顺序写入输出流,以恢复出完整的数据块A。本发明具有重复单词查找效率快,计算开销小和数据压缩效率高等优点。
技术领域
本发明属于计算机存储的数据压缩领域,更具体地,涉及一种快速差量压缩方法。
背景技术
近年来,随着计算机技术和网络的发展普及,全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停的下降,但也远远赶不上数据扩张增长的速度。重复数据删除(Data Deduplication)作为一种通过大规模地有效地消除冗余数据的技术,成为近些年来存储系统研究的热点。重复数据删除不仅能够极大地节省存储空间从而提高存储资源的利用率,而且能够通过避免冗余数据的传输提高网络带宽的传输效率。
但是随着重复数据删除技术的发展,重复数据删除技术也面临诸多的挑战。由于传统的重复数据删除技术是基于数据块的指纹来进行重复数据判断,所以这限制了重复数据删除技术只能识别完全重复的数据块,而不能识别那些很相似的数据块。比如两个数据块A1和A2仅几个字节不同的情况,虽然A1和A2接近完全相似,但是重复数据删除技术会产生截然不同的数据指纹从而忽略了对这些相似数据的冗余处理。于是差量压缩(DeltaCompression)技术就被提出来应用在这种场合,差量压缩是一项高效的数据压缩技术,它能够根据基准数据块(或称引用数据块)Ar对其相似数据块Ai进行高度压缩。数据块的相似度越高,则压缩效率越高。如公式所示,把Ar和Ai输入Delta算法器,Delta算法器会输出一个差量数据(记作Δr,i)代表文件Ai的压缩版本。如需要解压数据Ai,则读取差量数据Δr,i和基准数据块Ar即可以计算得出数据Ai。
所以,差量压缩与重复数据删除技术比较而言,差量压缩能够消除非重复但是相似的冗余数据,从而获得更大的数据压缩比。
然而,现有的差量压缩技术存在以下问题:其压缩编码慢,索引开销大,数据压缩效率低,可扩展性差;以目前广泛采用的加州伯克利大学经典的Xdelta差量压缩算法为例,其压缩编码速率大约仅在30-60MB/s(采用intel四核Xeon 2.6Ghz处理器),这样缓慢的差量压缩编码速率严重地限制了该算法的推广和发展。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种快速差量压缩方法,其目的在于,通过将相似数据块(或文件)基于内容快速切分单词、计算单词哈希、索引查找重复单词等操作,识别相似数据块之间的不同数据,实现最终的差量编码存储,从而节省存储空间,并解决现有差量压缩技术中存在的压缩编码慢、索引开销大、数据压缩效率低、可扩展性差的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种快速差量压缩方法,包括以下步骤:
(1)对差量压缩中的基准块B进行基于内容的快速切分,以得到多个单词,从而构成单词库;
(2)对与基准块B相似的数据块A进行基于内容的快速切分,并且对快速切分期间检测到的重复单词进行放大,以得到重复单词和非重复单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510927001.5/2.html,转载请声明来源钻瓜专利网。





