[发明专利]一种数据存储方法与装置在审
申请号: | 201910921530.2 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110750508A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 于开文 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/13 |
代理公司: | 11278 北京连和连知识产权代理有限公司 | 代理人: | 刘小峰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待存储数据 存储数据 基本信息 哈希 数据存储 敏感 处理效率 对比结果 数据比对 直接存储 响应 比对 存储 分组 消耗 | ||
本发明公开了一种数据存储方法与装置,包括:将待存储数据与所有已存储数据一一比对基本信息;响应于待存储数据的基本信息不与任何已存储数据一致,而直接存储待存储数据;响应于待存储数据的基本信息与特定已存储数据一致,而计算待存储数据的局部敏感哈希,将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希进行分组对比,并根据对比结果来选择性地存储待存储数据。本发明能够降低数据存储在数据比对上消耗的时间,提高处理效率。
技术领域
本发明涉及数据传输领域,更具体地,特别是指一种数据存储方法与装置。
背景技术
目前,数据正以大于每年40%的速度增长,几乎两年数据量就会翻一倍。而在这些数据中有相当大一部分都是重复的,几乎无用的数据。尤其是当前情况下,采用数据备份系统来备份关键数据是提高数据可靠性的一种有效技术手段,然而随着数据信息量的快速增长,数据备份系统中的多余的冗余数据信息随着时间的推移而日益增多,数据备份也面临着很大的存储压力。因此,研究数据缩减技术,删除存储系统中多余的冗余数据,减少数据在存储空间、管理和能耗等方面造成的资源浪费等相关问题有重要的现实意义。在现有数据备份技术中,增量备份和差分备份难以解决备份数据急剧膨胀的问题,而重复数据删除技术作为一种新的数据缩减技术可通过删除冗余数据,减少存储系统使用的存储容量来有效地降低存储的成本。Google提出的用来处理海量数据重复的Simhash(一种局部敏感哈希)算法在这方面有着非常优越的性能。但是当位数比较高时,往往会造成性能的下降。
针对现有技术中基于局部敏感哈希的数据比对效率低下的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种数据存储方法与装置,能够降低数据存储在数据比对上消耗的时间,提高处理效率。
基于上述目的,本发明实施例的第一方面提供了一种数据存储方法,包括执行以下步骤:
将待存储数据与所有已存储数据一一比对基本信息;
响应于待存储数据的基本信息不与任何已存储数据一致,而直接存储待存储数据;
响应于待存储数据的基本信息与特定已存储数据一致,而计算待存储数据的局部敏感哈希,将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希进行分组对比,并根据对比结果来选择性地存储待存储数据。
在一些实施方式中,基本信息包括数据的文件名与占用空间。
在一些实施方式中,将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希进行分组对比,并根据对比结果来选择性地存储待存储数据包括:
将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希各自分组并逐一执行对比;
响应于对比到有分组的局部敏感哈希不一致,就立即停止对比并存储待存储数据,否则不存储待存储数据。
在一些实施方式中,将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希进行分组对比,并根据对比结果来选择性地存储待存储数据包括:
将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希各自分组并逐一执行对比,存储局部敏感哈希不一致的分组对应的待存储数据分片,不存储局部敏感哈希一致的分组对应的待存储数分片。
在一些实施方式中,还包括:确定不存储待存储数据或分片的同时,为待存储数据或分片建立指向特定已存储数据或分片的映射。
本发明实施例的第二方面提供了一种数据存储装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:
将待存储数据与所有已存储数据一一比对基本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921530.2/2.html,转载请声明来源钻瓜专利网。