[发明专利]一种快速差量压缩方法有效

申请号：	201510927001.5	申请日：	2015-12-14
公开（公告）号：	CN105515586B	公开（公告）日：	2019-04-12
发明（设计）人：	夏文;冯丹;李春光;江泓	申请（专利权）人：	华中科技大学
主分类号：	H03M7/30	分类号：	H03M7/30
代理公司：	华中科技大学专利中心 42201	代理人：	朱仁玲
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种快速差量压缩方法，包括：对差量压缩中的基准块B进行基于内容的快速切分，以得到多个单词，从而构成单词库，对与基准块B相似的数据块A进行基于内容的快速切分，并且对快速切分期间检测到的重复单词进行放大，以得到重复单词和非重复单词，对得到的重复单词和非重复单词按切分顺序依次进行编码和储存，并分别使用两种不同的数据格式来记录重复单词和非重复单词，以得到差量数据块△_B,A，在需要对差量数据块△_B,A进行解码操作时，依次从△_B,A中获取两种数据格式的记录，从而依次获得数据块A的所有单词，将这些单词顺序写入输出流，以恢复出完整的数据块A。本发明具有重复单词查找效率快，计算开销小和数据压缩效率高等优点。

技术领域

本发明属于计算机存储的数据压缩领域，更具体地，涉及一种快速差量压缩方法。

背景技术

近年来，随着计算机技术和网络的发展普及，全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停的下降，但也远远赶不上数据扩张增长的速度。重复数据删除(Data Deduplication)作为一种通过大规模地有效地消除冗余数据的技术，成为近些年来存储系统研究的热点。重复数据删除不仅能够极大地节省存储空间从而提高存储资源的利用率，而且能够通过避免冗余数据的传输提高网络带宽的传输效率。

但是随着重复数据删除技术的发展，重复数据删除技术也面临诸多的挑战。由于传统的重复数据删除技术是基于数据块的指纹来进行重复数据判断，所以这限制了重复数据删除技术只能识别完全重复的数据块，而不能识别那些很相似的数据块。比如两个数据块A1和A2仅几个字节不同的情况，虽然A1和A2接近完全相似，但是重复数据删除技术会产生截然不同的数据指纹从而忽略了对这些相似数据的冗余处理。于是差量压缩(DeltaCompression)技术就被提出来应用在这种场合，差量压缩是一项高效的数据压缩技术，它能够根据基准数据块(或称引用数据块)A_r对其相似数据块A_i进行高度压缩。数据块的相似度越高，则压缩效率越高。如公式所示，把A_r和A_i输入Delta算法器，Delta算法器会输出一个差量数据(记作Δ_r,i)代表文件A_i的压缩版本。如需要解压数据A_i，则读取差量数据Δ_r,i和基准数据块A_r即可以计算得出数据A_i。

所以，差量压缩与重复数据删除技术比较而言，差量压缩能够消除非重复但是相似的冗余数据，从而获得更大的数据压缩比。

然而，现有的差量压缩技术存在以下问题：其压缩编码慢，索引开销大，数据压缩效率低，可扩展性差；以目前广泛采用的加州伯克利大学经典的Xdelta差量压缩算法为例，其压缩编码速率大约仅在30-60MB/s(采用intel四核Xeon 2.6Ghz处理器)，这样缓慢的差量压缩编码速率严重地限制了该算法的推广和发展。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种快速差量压缩方法，其目的在于，通过将相似数据块(或文件)基于内容快速切分单词、计算单词哈希、索引查找重复单词等操作，识别相似数据块之间的不同数据，实现最终的差量编码存储，从而节省存储空间，并解决现有差量压缩技术中存在的压缩编码慢、索引开销大、数据压缩效率低、可扩展性差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种快速差量压缩方法，包括以下步骤：

(1)对差量压缩中的基准块B进行基于内容的快速切分，以得到多个单词，从而构成单词库；

(2)对与基准块B相似的数据块A进行基于内容的快速切分，并且对快速切分期间检测到的重复单词进行放大，以得到重复单词和非重复单词；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510927001.5/2.html，转载请声明来源钻瓜专利网。

上一篇：应用有源相控阵原理的短波段通信系统以及短波通信方法
下一篇：螺旋谐振环超宽带同步开关噪声抑制电源分配网络

同类专利

专利分类

H 电学

H03 基本电子电路
H03M 一般编码、译码或代码转换
H03M7-00 把用给定序列的数字或给定数目的数字来表示信息的码，转换到用不同序列的数字或不同数目的数字来表示相同信息的码
H03M7-02 .转换到加权代码或相反转换，即对一数字的加权与该数字在信息组或代码字中的位置有关
H03M7-14 .转换到非加权代码或相反转换
H03M7-26 .转换到随机码或相反转换
H03M7-28 .可编程序结构，即代码转换器所包括的设备其算符是可变的，以调整转换程序
H03M7-30 .压缩

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种快速差量压缩方法有效

专利文献下载