[发明专利]一种快速去重的文件数据复制方法无效
申请号: | 201010620074.7 | 申请日: | 2010-12-31 |
公开(公告)号: | CN102033962A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 朱立谷;李强 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张杰 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 文件 数据 复制 方法 | ||
技术领域
本发明涉及一种数据复制方法,特别涉及一种快速去重的文件数据复制方法。
背景技术
对于现有的文件数据复制方法主要有两种:一种是对整体文件进行去重,另一种是对文件内部数据块进行去重。前者是指针对整体文件去重算法进行的改进。传统的算法叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据,首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送,后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部内容。与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因此,比前者所需要传输的数据量要少很多。然而其文件对比所需要的检测时间确是相同的,均为对所有文件的所有内容进行比对检测。
然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行复制,很可能造成具有完全一样内容的文件被再次传输,增加了传输的负载,也没有达到去复的目的。如果对于一些本来就没有被修改过的文件来说,采用上述数据段去复的方法进行去重复制,那么需要将该文件分成若干段,将每段内容指纹计算,然后将每个数据段的指纹进行对比,最终确定复制策略,这样一来,大大增加了对文件内容一致性的检测时间。另外,即便文件内容有改动,然而,对于一些行业来说,比如影视行业,IT业等他们需要定期复制的文件数量很大,且单一文件大小也很大,通常被修改的部分较大,且被修改的位置在文件中的分布也不一定,比如,经大量修改后的内容存在于整个文件的中部或末尾,如果采用现有技术中上述数据段去重的方法的去重文件数据复制方法,对文件数据的进行备份,需要对所有的内容进行对比,因此,很多没有修改的信息都被提取出进行对比,其前期的检测时间大大增加了,使复制的效率大大降低,更严重的甚至会造成工业生产的停滞,进而造成较大的经济损失。
发明内容
为此,本发明要解决的技术问题在于,提出一种能够显著减少重复文件数据检测时间,又能很好地保证重复性文件检测精度的,高效的快速去重的文件数据复制方法。
为此,本发明的一种快速去重的文件数据复制方法,包括:
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述ID1文件和所述ID2文件存储在数据库中;
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4文件存储在数据库中;
指纹对比和文件复制执行步骤
将所述ID1文件与所述ID3文件进行对比:
若所述ID1文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;
若所述ID1文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据;
若所述ID1文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
上述的文件数据复制方法,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。
上述的文件数据复制方法,所述指纹计算为Rabin计算、MD5计算、SHA-1计算、SHA-224计算、SHA-256计算、SHA-384和SHA-512计算中的一种。
上述的文件数据复制方法,所述预定间隔尺度为512B-5KB;
上述的文件数据复制方法,其特征在于:通过间隔提取的文件数据段大小为512-2KB。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010620074.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种散热片
- 下一篇:一种质量自动可变的海浪能捕获机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置