[发明专利]一种字段存储方法、装置、设备及存储介质在审
申请号: | 202110559373.2 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297219A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 张永兴;孙华锦;王江;李树青 | 申请(专利权)人: | 山东云海国创云计算装备产业创新中心有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 侯珊 |
地址: | 250001 山东省济南市自由贸易试验*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字段 存储 方法 装置 设备 介质 | ||
本发明公开了一种字段存储方法,该方法包括:获取待存储的第一字段;根据哈希位宽确定第一字段的第一哈希值;确定与第一字段对应的第一二进制信息;从第一二进制信息中确定原文标签,其中,该原文标签的位数为第一二进制信息的总位数与哈希位宽之差;利用第一哈希值将原文标签存储至哈希表。可见,本方案在存储字段时,通过原文标签替换字段的二进制信息进行存储,由于原文标签的位数比字段的二进制信息的位数少,因此本方案可节省存储空间;本发明还公开了一种字段存储装置、设备及存储介质,同样可以实现上述技术效果。
技术领域
本发明涉及数据存储技术领域,更具体地说,涉及一种字段存储方法、装置、设备及存储介质。
背景技术
随着云计算对传统计算架构的替代,数据存储的结构也在发生变化,计算资源和存储资源将进一步向头部的数据中心聚合,进一步给服务器存储带来压力。面对这些持续增加的海量数据,数据压缩成为减轻服务器存储负担,降低存储成本的有效方法之一。数据压缩主要体现在重复冗余数据的压缩处理,可分为两步实现:首先,查找重复数据,判断前文中是否有与当前数据相同的段落,并得到前文的地址。然后表征重复数据,按照一定的规则表示重复数据,通常利用游程编码表征。
目前,硬件电路实现数据压缩,需要对当前字段之前一定长度的前文缓存。通常将前文划分为若干个字段,将每个字段的信息独立缓存,需要存储的信息包括:字段的文字内容及字段的偏移地址。目前主流的数据压缩算法都是基于Hash计算查找重复数据,其实现原理为:计算当前字段X的Hash值H(X),以H(X)为索引寻址查询Hash表是否存在与当前字段相同的重复数据,如果有重复数据,记录所有重复数据的地址。可见,目前压缩算法需要通过字段的Hash值及原文信息进行重复数据查找,因此Hash表中需要存储与每个字段对应的Hash值及原文信息,占用了较多的存储空间。
发明内容
本发明的目的在于提供一种字段存储方法、装置、设备及存储介质,以减少存储字段所占用的存储空间。
为实现上述目的,本发明提供的一种字段存储方法,包括:
获取待存储的第一字段;
根据哈希位宽确定所述第一字段的第一哈希值;
确定与所述第一字段对应的第一二进制信息;
从所述第一二进制信息中确定原文标签,其中,所述原文标签的位数为所述第一二进制信息的总位数与所述哈希位宽之差;
利用所述第一哈希值将所述原文标签存储至哈希表。
其中,从所述第一二进制信息中确定原文标签,包括:
从所述第一二进制信息的低位中截取低位信息作为所述原文标签。
其中,从所述第一二进制信息中确定原文标签,包括:
从所述第一二进制信息的高位中截取高位信息作为所述原文标签。
其中,所述第一二进制信息的总位数的确定方法包括:
确定所述第一字段的总字节数;
将所述总字节数与8的乘积作为所述总位数。
其中,利用所述第一哈希值将所述原文标签存储至哈希表之后,还包括:
接收数据查重指令;所述数据查重指令中携带待查重的第二字段;
根据所述哈希位宽确定所述第二字段的第二哈希值;
确定与所述第二字段对应的第二二进制信息;
从所述第二二进制信息中确定待查重标签,其中,所述待查重标签的位数为所述第二二进制信息的总位数与所述哈希位宽之差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东云海国创云计算装备产业创新中心有限公司,未经山东云海国创云计算装备产业创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110559373.2/2.html,转载请声明来源钻瓜专利网。