[发明专利]数据压缩、解压方法和装置在审
申请号: | 201910272327.7 | 申请日: | 2019-04-04 |
公开(公告)号: | CN111782734A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 司宏杰;王力;凌民光;彭柳青;邱晨健 | 申请(专利权)人: | 华为技术服务有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/174 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 荣甜甜;刘芳 |
地址: | 065000 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据压缩 解压 方法 装置 | ||
本申请实施例提供一种数据压缩、解压方法和装置,用于压缩在线分析处理OLAP数据;该方法包括:在OLAP数据的所有维度中确定至少一个第一维度,第一维度上每个关键字对应的度量值之间的差异在预设范围内;所有维度中除第一维度外的维度为第二维度;以第二维度中每个维度的任一关键字作为压缩模型的输入,以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出,对压缩模型进行训练,得到训练后的压缩模型;存储训练后的压缩模型以及多个维度中每个维度的关键字。通过存储压缩模块,避免将所有的OLAP数据的度量值进行存储,从而可减少存储空间。
技术领域
本申请涉及存储领域,尤其涉及一种数据压缩、解压方法和装置。
背景技术
随着大数据时代的到来,每天产生的数据量可能达到EB(1EB=1018字节)级,因此需要存储的数据量十分可观。大数据的价值体现在对其所做的分析和挖掘上,因此,大数据在存储时,通常以在线分析处理(on-line analytical processing,OLAP)数据的形式存储。OLAP数据在存储时,会存储数据的维度信息,因此OLAP数据支持分析人员迅速、一致、交互地在数据库中,从任意多个维度组合下观察、分析OLAP数据,以达到深入理解数据的目的。
由于OLAP数据在存储时,不仅存储了大量的数值(度量值),还存储了每个数值对应的维度信息,方便分析人员根据不同维度的关键字确定出对应的度量值,因此,OLAP数据占据存储空间较大。而且,大数据的大小与存储设备、存储设备的管理成本之间存在关联,当数据量急剧增长时,存储设备的成本、管理成本呈现几何增长趋势。因此,需要最大程度压缩数据,以减少存储设备的成本,并减少存储设备的管理成本。
传统的数据压缩方法包括字典编码技术、熵编码技术等。当采用字典编码技术对OLAP数据进行压缩时,一旦OLAP数据中不存在连续出现的字符,如OLAP数据为数值型数据时,压缩效果较差,字典编码技术失效。当采用熵编码技术对OLAP数据进行压缩时,当数据分布越均匀,数据的信息熵越大时,每个数据平均压缩后占用的空间越大,压缩效果越差。因此,采用传统的数据压缩方法对OLAP数据进行压缩存在压缩效果差的问题。
发明内容
本申请提供一种数据压缩、解压方法和装置,用以解决采用传统的数据压缩方法对OLAP数据进行压缩存在压缩效果差的问题。
本申请第一方面提供一种数据压缩方法,该方法用于压缩OLAP数据,OLAP数据包括多个度量值以及多个维度中每个维度的关键字,每个维度包括多个关键字,多个度量值中的每个度量值对应一组关键字,一组关键字包括来自多个维度中的每个维度的一个关键字。示例性地,图1为本申请实施例提供的一种可能的OLAP数据的存储形式示意图。如图1所示,OLAP数据可以包括三个维度:日期、基站和业务。每个维度上可以包括多个关键字,例如,基站维度上包括基站1、基站2和基站3共三个关键字。数据B可以为由一组关键字确定,数据B对应的一组关键字为日期1、基站3和业务3。
一种可行的实现方式中,数据压缩方法包括:
在OLAP数据的所有维度中确定至少一个第一维度,第一维度上每个关键字对应的度量值之间的差异在预设范围内;所有维度中除第一维度外的维度为第二维度;以第二维度中每个维度的任一关键字作为压缩模型的输入,以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出,对压缩模型进行训练,得到训练后的压缩模型;存储训练后的压缩模型以及多个维度中每个维度的关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术服务有限公司,未经华为技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910272327.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:异常话单确定方法、装置、设备及存储介质
- 下一篇:液压锁紧系统和饮品机