[发明专利]一种基于滑动窗口的数据差异分析方法无效

专利信息
申请号: 200810102817.4 申请日: 2008-03-27
公开(公告)号: CN101546320A 公开(公告)日: 2009-09-30
发明(设计)人: 林兆祥 申请(专利权)人: 林兆祥
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100080北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 滑动 窗口 数据 差异 分析 方法
【说明书】:

技术领域

发明属于数据压缩领域,具体涉及到一种采用滑动窗口进行数据差异分 析的方法。

背景技术

在计算机系统中,通讯和存储过程中经常存在大量彼此之间只存在轻微差 别的数据。比如,一个用户可能对一个文档进行多次修改,在修改过程中多次 保存为不同的文件,

在这些不同的文件之间,彼此之间的差异非常之小,但是计算机系统必须 为每个文件保存一个副本,这样就浪费了大量的存储空间。如果这样的文件在 网络上面传输,网络上每次传输的都是差异非常小的数据,同样也浪费了网络 的带宽。

如果我们能够将不同数据之间的差异部分分离出来,只对差异的部分进行 处理,这将大幅度提高计算机的处理效率。例如,对于一个将文件存储在远程 服务器上的系统,用户每次在客户端将文件修改以后,都需要把整个文件重新 传输到服务器上,在这种处理方式中,需要在网络上面传输整个文件的数据; 如果能够将修改前后的数据差异分析出来,则只需要将被修改的部分传输给服 务器。通常情况下,差异部分只占文件很小的比例,因此将大量节约网络的带 宽。

为了便于说明,下面将处理过程所涉及的源数据称为原始数据;将处理过 程中需要被分析的数据称为目标数据;描述目标数据和原始数据之间差异的数 据称为差异数据。

在传统的方法中,通常将原始数据和目标数据都分成为大小相等的数据块, 然后在原始数据和目标数据中查找内容相同的数据块,这种方法分析的准确率 较低。以数据块大小为2为例,原始数据为abcdef,目标数据为kabcde,分块 的结果为:ab|cd|ef|(原始数据),ka|bc|de(目标数据);显然,采用这种分块 方法,原始数据和目标数据中没有相同的数据块,而实际上,这两个数据中存 在大量相同的数据(abcde)。

发明内容

本发明的目的是提供一种技术,快速有效分析不同数据间的差异,从而达 到降低数据冗余的效果,提高计算机的在存储和传输等方面的效率。

为了达到以上目标,本发明采用的技术方案是,一种基于滑动窗口的数据差 异分析方法,应用于数据压缩领域,包括以下步骤:

1)将原始数据划分成大小相等的数据子块;

2)计算原始数据中每个数据子块的hash值;

3)设置当前处理位置等于目标数据的开始位置;

4)如果当前处理位置到目标数据结束位置之间的数据大小小于原始数 据的数据子块的大小,转10);

5)从当前处理位置处取一个大小与原始数据的数据子块大小相等的数 据块作为数据窗口;

6)根据数据窗口确定原始数据和目标数据的匹配范围;

7)如果没找到匹配范围,设置当前处理位置等于原来当前处理位置的 下一个位置,转4);

8)将数据匹配情况写入差异数据;

9)设置当前处理位置等于匹配范围的下一个位置,转4);

10)将剩余的数据匹配情况写入差异数据。

上述步骤6)根据数据窗口确定原始数据和目标数据的匹配范围,其详细步 骤如下:

2a).从原始数据的数据子块中找hash值与数据窗口的hash值相等的数 据子块;

2b).如果hash函数不是强抗冲突性的,从hash值相等的数据子块中进 一步找数据内容与数据窗口的数据内容相同的数据子块;

2c).对于每一个数据内容与数据窗口的数据内容相同的数据子块,都 可以确定一个匹配范围;选择一个合适的匹配范围,返回该匹配范 围,如果不存在合适的匹配范围,则没找到匹配范围,返回。

上述步骤2c),对于每一个数据内容与数据窗口的数据内容相同的数据子块, 都可以确定一个匹配范围,确定匹配范围可以有两种方法:

3a).直接把数据窗口的范围作为匹配范围;

3b).将数据窗口与数据子块周围对应位置内容相同并且还没有被记录 到差异数据中的数据也纳入匹配范围。

上述2c)选择一个合适的匹配范围,其特征在于如果存在多个匹配范围,只 需要选择其中的一个即可,选择的策略可以有多种,但是并不影响本发明的本 质,选择的策略包括但不仅限于:

4a).选择第一个匹配范围;

4b).选择范围最大的一个匹配范围;

4c).选择第一个范围不小于预定值的匹配范围。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于林兆祥,未经林兆祥许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810102817.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top