[发明专利]有效计算相似搜索值和摘要块边界的方法和系统有效
申请号: | 201410098083.2 | 申请日: | 2014-03-17 |
公开(公告)号: | CN104050233B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | S.H.阿基拉夫;L.阿罗诺维克;S.本-多尔;M.赫希;O.勒尼曼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 张贵东 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有效 计算 相似 搜索 摘要 边界 方法 系统 | ||
1.一种在计算环境下在使用处理器设备的重复数据删除系统中有效计算相似搜索值和摘要块的边界两者的方法,包含:
将输入数据划分成大数据块;
对于每个大数据块,计算一组滚动散列值;
将滚动散列值的单个线性扫描用于产生相似搜索值和摘要块的边界两者;
将每个滚动散列值用于贡献给相似搜索值的计算和摘要块的边界的计算;以及
在贡献给相似搜索值的计算和摘要块的边界的计算之后丢弃每个滚动散列值。
2.如权利要求1所述的方法,进一步包括以字节偏移量将每个滚动散列值与字节的相继窗口对应。
3.如权利要求1所述的方法,进一步包括使用相似搜索值来搜索数据的中心库中与输入数据相似的数据。
4.如权利要求1所述的方法,进一步包括使用摘要块的边界为每个大数据块计算摘要值以便用于摘要匹配。
5.如权利要求1所述的方法,进一步包括将输入数据划分成固定尺寸大数据块。
6.一种在计算环境的重复数据删除系统中有效计算相似搜索值和摘要块的边界两者的系统,该系统包含:
重复数据删除系统;
与该重复数据删除系统通信的计算环境中的中心库;
可工作在计算存储环境中以便控制该重复数据删除系统的至少一个处理器设备,其中该至少一个处理器设备:
将输入数据划分成大数据块,
对于每个大数据块,计算一组滚动散列值,
将滚动散列值的单个线性扫描用于产生相似搜索值和摘要块的边界两者;
将每个滚动散列值用于贡献给相似搜索值的计算和摘要块的边界的计算;以及
在贡献给相似搜索值的计算和摘要块的边界的计算之后丢弃每个滚动散列值。
7.如权利要求6所述的系统,其中该至少一个处理器设备以字节偏移量将每个滚动散列值与字节的相继窗口对应。
8.如权利要求6所述的系统,其中该至少一个处理器设备使用相似搜索值来搜索数据的中心库中与输入数据相似的数据。
9.如权利要求6所述的系统,其中该至少一个处理器设备使用摘要块的边界为每个大数据块计算摘要值以便用于摘要匹配。
10.如权利要求6所述的系统,其中该至少一个处理器设备将输入数据划分成固定尺寸大数据块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410098083.2/1.html,转载请声明来源钻瓜专利网。