[发明专利]云存储中一种重复数据删除算法在审
申请号: | 201610835999.0 | 申请日: | 2016-09-21 |
公开(公告)号: | CN106610792A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 范勇 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储 一种 重复 数据 删除 算法 | ||
技术领域
本发明涉及计算机存储、云存储中重复数据的删除及检索、信号处理领域。
背景技术
随着信息技术和网络技术的发展,大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术。只有备份还不够;重复数据删除与压缩即将成为主存储的必备功能。重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针来最小化数据量;这个指针通过给定大小的数据模式进行哈希创建。目前只有少数主存储阵列提供重复数据删除作为产品的附加功能;据报道,只有不到5%的磁盘阵列真正支持在线重复数据删除与压缩,通过数据去重节约的空间十分可观。研究表明,在云存储应用系统所保存的数据中,高达60%的数据是冗余的,以重复数据为主导的冗余数据所占比例也将随着时间的推移而上升,重复数据删除作为一项应用于存储系统上的数据管理技术,有必要结合数据特征和存储规模来探讨。
重复数据删除技术不仅能够更好地利用昂贵的闪存资源,而且也比较容易实现。与大多数存储供应商相比,数据去重技术在闪存上的表现更好,因为每秒的输入/输出操作对闪存来说几乎无须任何代价。
同样,对于租用云空间的用户来说,大量重复数据充斥在云空间内,不仅对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销。所以本发明将重复数据删除理论引入云存储中,从而帮助云租户最大价值的利用云空间。
发明内容
针对现有技术的上述不足,本发明提出了云存储中一种重复数据删除算法。
针对以上问题,本发明提出了以下技术方案:
本发明提出一种云存储中一种重复数据删除算法,采用4阶累积量切片实现对云存储系统重复数据信息流的能量聚集和噪声抑制,进行重复数据检测后置滤波处理,创建多个线程的信息流特征编码,实现对重复数据的删除。具体步骤如下:
步骤1:数据分块。
步骤2:生成校验信息存储子集。
步骤3:生成重复数据集合。
步骤4:重复数据流分数Fourier构造变换简化。
步骤5:重复数据检测。
步骤6:数据删重。
本发明的有益效果是:
1、有效避免数据信息流的干扰特征造成的误删和漏删;
2、对云存储系统中重复数据的检测性能较好;
3、重复数据删除准确性高;
4、综合性能优于传统算法。
具体实施方式
步骤1:数据分块
在云存储中,分为三个角色,客户端负责用户信息的采集和命令生成,服务端负责管理用户的操作和请求,也就是负责对数据的冗余进行鉴定,云空间负责存储用户信息。在本算法中,首先要将数据进行分块,假设信息F是由若干个文件组成,将每一个文件作为一个完整的数据块进行分块,那么得到完整的数据信息流为:
其中,t0、tg分别表示数据块边界偏移的个体极值和全局极值进化停滞步数;T0、Tg分别表示个体极值和全局极值需要扰动的停滞步数阈值。
步骤2:生成校验信息存储子集
根据云存储中的Qos偏好,将数据存储的适应度函数定义为如下:
fij=ωtσt+ωcσc+ωqσq+ωsσs
其中,ωt+ωc+ωq+ωs=1,t代表时间,c代表花费、q代表质量、s代表安全,不同应用文件在选择相同的划分策略和指纹提取方法时候,各个存储子集组合成一个具有层次结构树状图,得到存储节点的系统子集随机概率分布函数为:
ω(epkq)=α×ω(spkq)
重复数据的双随机概率分布函数的权重主要依据它在所属双随机概率分布函数中出现的概率来计算,而所有双随机概率分布函数都是围绕一个核心概率函数展开的,得到重复数据信息流的存储节点权重ω(epkq),以此计算存储集群系统的校验信息存储子集,计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610835999.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种投影触控方法、装置及设备
- 下一篇:智造行业中一种新的语义相似度求解方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置