[发明专利]基于低位哈希标签的存储方法、系统、终端及存储介质在审

申请号：	202110559762.5	申请日：	2021-05-21
公开（公告）号：	CN113204556A	公开（公告）日：	2021-08-03
发明（设计）人：	李树青;王江;张永兴;孙华锦	申请（专利权）人：	山东英信计算机技术有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/24
代理公司：	济南舜源专利事务所有限公司 37205	代理人：	孙玉营
地址：	250101 山东省济南市高新区***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于低位标签存储方法系统终端介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于低位哈希标签的存储方法、系统、终端及存储介质，包括：计算待存储数据的全息哈希值；将所述全息哈希值的低位信息作为所述待存储数据的标签保存至数据表；将所述全息哈希值的高位信息作为所述标签的存储索引值。本发明利用数据标签来标识数据原文，算法原理简单、高效，标签的位宽比原文少,可以节省缓存内存，用硬件实现截取数据的低位信息的功能，电路设计简单，容易实现。

技术领域

本发明涉及大数据存储技术领域，具体涉及一种基于低位哈希标签的存储方法、系统、终端及存储介质。

背景技术

随着大数据、AI、区块链等前沿科学技术的迅速发展，催生了数据爆发式的增长，海量数据将对现有的存储设备带来巨大的压力。随着云计算对传统计算架构的替代，数据存储的结构也在发生变化，计算资源和存储资源将进一步向头部的数据中心聚合，进一步给服务器存储带来压力。面对这些持续增加的海量数据，数据压缩成为减轻服务器存储负担，降低存储成本的有效方法之一。

数据压缩主要体现在重复冗余数据的压缩处理，可分为两步实现：

1,查找重复数据，判断前文中是否有与当前数据相同的段落，并得到前文的地址。

2,表征重复数据，按照一定的规则表示重复数据，通常利用游程编码表征。

因此硬件电路实现数据压缩，需要对当前字段之前一定长度的前文缓存。通常将前文划分为若干个字段，将每个字段的信息独立缓存，需要存储的信息：字段的文字内容和字段的偏移地址。

目前主流的数据压缩算法(LZ77,LZ4,Deflate,Gzip等)都是基于Hash计算查找重复数据。其实现原理：计算当前字段X的Hash值H(X)，以H(X)为索引在查询Hash表是否存在与当前字段相同的前文字段(即数据重复)，如果有重复数据，记录所有重复数据的地址。

Hash计算的作用对字段进行分类，可以加速查找重复的流程，因此会把字段按照依据Hash值分类存储(即Hash表)。

基于当前主流存储方案，假设字段X由N个Byte构成，保存字段X的原文需要n＝8*Nbits。由于前文数据已按照Hash值分类存储，Hash值由原文通过公式计算得到，X的Hash值可以表述H(X)当前的存储方案，看似保存的是原文信息，但从实质上讲是用H(X)，X来表征X的原文,即用(n+m)bits的标签来描述一个m bits的字段。从信息论角度来看，当前的存储方案，无疑存在信息冗余，理论上有m bits的信息冗余，因此很有必要找到一种高效的存储方案，替代当前的原文的存储方案，这样可以减少存储空间。

发明内容

针对现有技术的上述不足，本发明提供一种基于低位哈希标签的存储方法、系统、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种基于低位哈希标签的存储方法，包括：

计算待存储数据的全息哈希值；

将所述全息哈希值的低位信息作为所述待存储数据的标签保存至数据表；

将所述全息哈希值的高位信息作为所述标签的存储索引值。

进一步的，所述方法还包括：

设置所述标签的哈希位宽为理论最小值32。

进一步的，所述方法还包括：

根据目标存储索引值查找目标数据的目标标签；

根据目标存储索引值和目标标签还原目标数据的目标全息哈希值；

根据所述目标全息哈希值逆向计算目标数据。