[发明专利]一种并发层次式的重复数据消除方法和系统无效

申请号：	201010233608.0	申请日：	2010-07-16
公开（公告）号：	CN101916171A	公开（公告）日：	2010-12-15
发明（设计）人：	王树鹏;云晓春;包秀国;李楠宁	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F3/06	分类号：	G06F3/06;G06F12/06
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国;梁挥
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种并发层次重复数据消除方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息安全领域，特别是涉及一种可以有效利用多核计算资源的并发层次式的重复数据消除方法和系统。

背景技术

随着信息化程度的不断提高，数据量不断爆炸式增长。据统计，2002年全球产生了5EB的数据，并且以每年30％速度迅速增长，预计到2010年，全球数据总量将超过988EB。同时，数据的重要性不断提高，越来越多的数据需要通过归档和备份进行集中存储，据企业战略集团(Enterprise StrategyGroup，ESG)统计，归档和备份的数据量每年以60％的速度迅速增长，规模已达PB级并且很快会增长到百PB级；备份系统中的数据量通常会达到生产系统的10倍到20倍。而在备份、归档等集中存储系统中，存在大量的冗余数据信息，某些情况下冗余数据量甚至可以达到几十倍甚至上百倍。例如：办公自动化系统中，文件流转、版本修订比较普遍，一个文件可能抄送给多个人，一个文件可能有多个版本，这其中有大量的重复数据；另外，群发邮件也会导致巨大的冗余信息。在这种情况下，消除冗余信息、节省存储空间就成为需要解决的重要问题。

目前，在初期，大量的研究工作都集中在消冗率的提升方面，通过不断减小数据消冗粒度来提高消冗率。美国易安信公司(EMC)的Centera内容寻址系统、windows的单实例存储系统采用了以文件为单位的数据消冗方法，该方法的优点是实现简单、计算速度快，但是检测粒度较粗，消冗效果差；为了提高消冗率，研究者又提出了定长块的检测方法，将一个文件分成固定长度的数据块，以数据块为单位进行消冗，该方法的优点是计算速度快、对数据变化反应比较敏感，主要缺陷是在文件中部分内容被插入或者修改的情况下会严重影响消冗效果，该方法被应用到了Venti归档存储系统中；为了进一步提高消冗率，研究者针对定长块消冗存在的问题，又提出了变长块的数据消冗方法，即使用Rabin fingerprint技术或者其它相似函数确定数据块的边界，将变化的内容划分到一个数据块中，典型的应用有Shark、Deep Store等。另外，研究者还提出了字节级的消冗机制，先查找相似度比较高的数据块，然后采用差异压缩机制计算数据块之间的差异，仅存储差异部分的内容，常用的差异压缩算法有zDelta等。

随着数据消冗技术在海量存储系统中的应用，消冗机制对存储系统吞吐率的影响逐渐体现出来，数据消冗的性能问题逐渐引起了研究者的关注，针对该问题展开了一系列的研究。提出通过Bloom Filter、基于局部性的缓存等机制来降低消冗过程中的磁盘I/O次数，提高数据消冗速度；还提出通过将消冗数据块打包成定长的数据对象来提高数据读写性能；研究者还提出了一个两阶段消冗机制，通过将随机的小的磁盘I/O调整为序列化的大的磁盘I/O来提高数据消冗的吞吐率；针对一些系统缺少数据局部性特征的特点，研究者提出了基于文件相似性的特点降低消冗过程中查询的次数，提高数据消冗性能。

通过降低重复数据消除的粒度，可以明显提高消冗率，然而会导致计算开销明显增加，特别是采用字节级的重复数据消除机制时，计算开销明显增加，会严重影响重复数据消除的速率；同时，在多核系统中，现有的重复数据消除机制都无法充分利用计算资源。

发明内容

本发明的目的在于提供一种并发层次式的重复数据消除方法和系统，其充分利用了多核系统的计算资源，采用先粗粒度再细粒度的重复数据消除机制，在通过降低去重粒度提高消重率的情况下，保证系统的去重速率，解决去重率与去重速率的矛盾，满足海量存储系统去重的需求，实现了高效的重复数据消除。

为实现本发明的目的而提供的一种并发层次式的重复数据消除方法，包括下列步骤：

步骤100.输入装置接收到外部输入的数据，并将所述数据放入共享缓冲队列；

步骤200.多个分块装置并行地从所述缓冲队列中获取所述数据并进行分块，并将划分后的块输入给多个粗粒度去重装置进行粗粒度去重；

步骤300.所述粗粒度去重装置进行粗粒度去重，判断数据块是否重复，若是，则执行步骤500，否则执行步骤400；

步骤400.细粒度去重装置对非重复的数据块执行细粒度的去重，并将去重后的数据块及其索引信息通过数据读写子系统存入存储器；

步骤500.将重复数据块的索引信息通过数据读写子系统写入存储器。

所述共享缓冲队列具有一个上限，当所述共享缓冲队列中数据对象的个数超过预定值时，所述输入装置就停止工作一段时间，等待分块装置进行处理。

所述步骤300，包括下列步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。