[发明专利]一种基于滑动窗口的数据差异分析方法无效
| 申请号: | 200810102817.4 | 申请日: | 2008-03-27 |
| 公开(公告)号: | CN101546320A | 公开(公告)日: | 2009-09-30 |
| 发明(设计)人: | 林兆祥 | 申请(专利权)人: | 林兆祥 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100080北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 滑动 窗口 数据 差异 分析 方法 | ||
技术领域
本发明属于数据压缩领域,具体涉及到一种采用滑动窗口进行数据差异分 析的方法。
背景技术
在计算机系统中,通讯和存储过程中经常存在大量彼此之间只存在轻微差 别的数据。比如,一个用户可能对一个文档进行多次修改,在修改过程中多次 保存为不同的文件,
在这些不同的文件之间,彼此之间的差异非常之小,但是计算机系统必须 为每个文件保存一个副本,这样就浪费了大量的存储空间。如果这样的文件在 网络上面传输,网络上每次传输的都是差异非常小的数据,同样也浪费了网络 的带宽。
如果我们能够将不同数据之间的差异部分分离出来,只对差异的部分进行 处理,这将大幅度提高计算机的处理效率。例如,对于一个将文件存储在远程 服务器上的系统,用户每次在客户端将文件修改以后,都需要把整个文件重新 传输到服务器上,在这种处理方式中,需要在网络上面传输整个文件的数据; 如果能够将修改前后的数据差异分析出来,则只需要将被修改的部分传输给服 务器。通常情况下,差异部分只占文件很小的比例,因此将大量节约网络的带 宽。
为了便于说明,下面将处理过程所涉及的源数据称为原始数据;将处理过 程中需要被分析的数据称为目标数据;描述目标数据和原始数据之间差异的数 据称为差异数据。
在传统的方法中,通常将原始数据和目标数据都分成为大小相等的数据块, 然后在原始数据和目标数据中查找内容相同的数据块,这种方法分析的准确率 较低。以数据块大小为2为例,原始数据为abcdef,目标数据为kabcde,分块 的结果为:ab|cd|ef|(原始数据),ka|bc|de(目标数据);显然,采用这种分块 方法,原始数据和目标数据中没有相同的数据块,而实际上,这两个数据中存 在大量相同的数据(abcde)。
发明内容
本发明的目的是提供一种技术,快速有效分析不同数据间的差异,从而达 到降低数据冗余的效果,提高计算机的在存储和传输等方面的效率。
为了达到以上目标,本发明采用的技术方案是,一种基于滑动窗口的数据差 异分析方法,应用于数据压缩领域,包括以下步骤:
1)将原始数据划分成大小相等的数据子块;
2)计算原始数据中每个数据子块的hash值;
3)设置当前处理位置等于目标数据的开始位置;
4)如果当前处理位置到目标数据结束位置之间的数据大小小于原始数 据的数据子块的大小,转10);
5)从当前处理位置处取一个大小与原始数据的数据子块大小相等的数 据块作为数据窗口;
6)根据数据窗口确定原始数据和目标数据的匹配范围;
7)如果没找到匹配范围,设置当前处理位置等于原来当前处理位置的 下一个位置,转4);
8)将数据匹配情况写入差异数据;
9)设置当前处理位置等于匹配范围的下一个位置,转4);
10)将剩余的数据匹配情况写入差异数据。
上述步骤6)根据数据窗口确定原始数据和目标数据的匹配范围,其详细步 骤如下:
2a).从原始数据的数据子块中找hash值与数据窗口的hash值相等的数 据子块;
2b).如果hash函数不是强抗冲突性的,从hash值相等的数据子块中进 一步找数据内容与数据窗口的数据内容相同的数据子块;
2c).对于每一个数据内容与数据窗口的数据内容相同的数据子块,都 可以确定一个匹配范围;选择一个合适的匹配范围,返回该匹配范 围,如果不存在合适的匹配范围,则没找到匹配范围,返回。
上述步骤2c),对于每一个数据内容与数据窗口的数据内容相同的数据子块, 都可以确定一个匹配范围,确定匹配范围可以有两种方法:
3a).直接把数据窗口的范围作为匹配范围;
3b).将数据窗口与数据子块周围对应位置内容相同并且还没有被记录 到差异数据中的数据也纳入匹配范围。
上述2c)选择一个合适的匹配范围,其特征在于如果存在多个匹配范围,只 需要选择其中的一个即可,选择的策略可以有多种,但是并不影响本发明的本 质,选择的策略包括但不仅限于:
4a).选择第一个匹配范围;
4b).选择范围最大的一个匹配范围;
4c).选择第一个范围不小于预定值的匹配范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林兆祥,未经林兆祥许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102817.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隧道式灭菌烘干装置
- 下一篇:一种包装袋开袋机及所用的撑口装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





