[发明专利]一种基于无中心分布系统的全局重复数据删除系统及方法有效
| 申请号: | 201210232607.3 | 申请日: | 2012-07-05 |
| 公开(公告)号: | CN102799659A | 公开(公告)日: | 2012-11-28 |
| 发明(设计)人: | 严荣程;魏孙鼎 | 申请(专利权)人: | 广州鼎鼎信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
| 代理公司: | 广州市越秀区海心联合专利代理事务所(普通合伙) 44295 | 代理人: | 马丽丽 |
| 地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 中心 分布 系统 全局 重复 数据 删除 方法 | ||
技术领域
本发明涉及计算机信息存储领域,具体涉及一种基于无中心分布系统的全局重复数据删除系统及方法。
背景技术
随着信息量的膨胀,云存储系统的普及,越来越多的重复数据给存储系统和网络带宽带来挑战,如何压缩数据成为一个重要的课题。为了解决这个问题,“重复数据删除”技术便成为焦点。由于现有的“服务端数据删除”技术,需要把数据传送到服务端,再由服务器进行重复删除操作,当在云存储环境下,大量客户端并发请求时,服务器的运算及存储马上成为瓶颈;由于云存储环境下的数据量非常大,即使经过重复删除,单台存储服务器也会被很快填满。所以,如何在分布式的云存储环境下,又能实现数据重复删除,成为了亟待解决的难题。现行技术下的重复数据删除,基本上都采用了“布隆过滤器”(Bloom Filter),它是种有损的信息处理方法,会产生一定的误判(False Positive),它可能给出的一个查询请求结果是:“可能存在”,当数据量越来越大,这种误判就会降低数据的重复删除效果,导致仍然有很多数据没有被重复删除掉。这种有损的信息处理方法,决定了不能保证在全局范围内进行重复数据删除处理。
发明内容
为了解决现有技术在重复数据删除过程中会产生误判,降低数据的重复删除效果,导致较多重复数据被漏删的技术问题,本发明提供一种基于无中心分布系统的全局重复数据删除系统及方法。
一种基于无中心分布系统的全局重复数据删除系统,所述系统包括:客户端重复数据删除模块,与客户端重复数据删除模块实现数据相互传输的服务端全局重复数据删除模块,与服务端全局重复数据删除模块实现数据相互传递的服务端多副本冗余模块以及引用操作模块,以及由客户端发起对一个数据块进行读写操作的读写操作模块。
优选的是,所述引用操作模块由加引用操作模块和减引用操作模块组成。
优选的是,所述加引用操作模块由路由模块、全内存索引模块和冗余组模块组成;所述路由模块、全内存索引模块以及冗余组模块相互之间协同工作;所述路由模块的路由过程是首先通过给定的一个数据块的ID,然后把ID映射到一个存储服务器上;所述全内存索引模块主要是用以提高重复数据删除的速度;所述冗余组模块是互为复制品的一组服务器,用以提高数据安全性。
一种实现基于无中心分布系统的全局重复数据删除系统的方法,所述客户端重复数据删除方法包括以下步骤:
a)采用基于内容的变长数据分块算法对目标文件进行切块;
b)对已切块的数据进行强签名运算,得到摘要ID;
c)由客户端向服务器端发起对此摘要的引用请求,表示为:Ref(ID);
d)由服务器端通过全局重复数据删除操作,返回两个确定的操作之一的结果,其一为引用成功,该ID全局引用计数器已加1,其二为引用失败,该ID全局范围内不存在;
e)再由客户端通过判断引用操作的结果,如果引用成功,则对该数据块的操作完成;如果引用失败,就向服务器端发送该数据块,然后再重复步骤a-e,直到所有数据块操作完成。
优选的是,实现基于无中心分布系统的全局重复数据删除系统的方法中,所述服务端多副本冗余模块是基于RAIN结构下的写操作,所述写操作方法包括以下步骤:
a)由服务器K端接收到一个对数据块ID的写操作请求,表示为Write(ID);服务器K通过路由方法,f(ID)→N,算出数据块ID应由服务器N负责,并由此算出该ID的冗余组成员,假定冗余度为R=3,那么,三台服务器(N,N+1,N+2)成为一个冗余组被选定;
b)由服务器K同时转发写入请求Ref(ID)到冗余组(N,N+1,N+2)每台服务器上;
c)由服务器K等待从冗余组(N,N+1,N+2)返回的操作结果;
d)若服务器K接收到任一台服务器的结果为:“失败”,立即把操作结果“失败”返回给客户端;
e)若服务器K接收到R=3个成功操作结果,把“操作成功”返回给客户端;
f)数据写入完成。
优选的是,实现基于无中心分布系统的全局重复数据删除系统的方法中,所述服务器端的全局冗余删除是通过对冗余组模块内成员进行“加引用”操作;所述“加引用”方法包括以下步骤:
a)通过服务器K端接收到一个对数据块ID的引用请求,表示为:Ref(ID);
b)由服务器K通过路由方法,f(ID)→N,算出数据块ID应由服务器N负责,并由此算出该ID的冗余组成员,假定冗余度(Replication)为R=3,那么,三台服务器(N,N+1,N+2)成为一个冗余组被选定;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州鼎鼎信息科技有限公司,未经广州鼎鼎信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210232607.3/2.html,转载请声明来源钻瓜专利网。





