[发明专利]基于数据库行列混合存储的多规则复合压缩方法无效
申请号: | 201210209362.2 | 申请日: | 2012-06-25 |
公开(公告)号: | CN102737132A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 曹晖;冯柯;毛云青;何清法;周丽霞;蒋志勇;赵殿奎;关刚;王效忠;李海峰 | 申请(专利权)人: | 天津神舟通用数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 天津市天津华苑*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据库 行列 混合 存储 规则 复合 压缩 方法 | ||
技术领域
本发明涉及数据存储技术、数据压缩技术、数据检索技术,特别是涉及一种基于数据库行列混合存储的多规则复合压缩方法。
背景技术
查询处理与数据存储是数据库的两个核心要素,两者相辅相成,共同保证数据库能够为用户提供高效的数据管理与检索服务。但随着信息革命的深入,现实应用无时不在产生海量的新数据,并且用户也更倾向于保留更久时间段的历史数据,数据存储容量的限制已经是刻不容缓需要面临的严重问题。另一方面,存储硬件的发展速度已经大大落后于其它计算机系统硬件,存储系统成为制约数据库整体性能的严重瓶颈。在这种形势下,存储系统面临的压力愈加沉重,为了能够支持海量数据存储同时保证存储系统不会拖慢数据库整体性能,用户往往只能通过堆叠存储系统硬件来实现,随之而来的是无法控制的成本与扩展性问题。
为此,数据库压缩技术应运而生,通过内嵌压缩技术将存储数据压缩,在大幅减少数据存储容量的同时也减少了查询处理时对存储系统的IO消耗,从而降低了整个存储系统的成本,并变相提高了其性能。由于引入压缩技术后数据库需要对数据进行压缩解压操作,这会需要消耗更多的处理器资源。但由于存储系统的发展远远跟不上遵循摩尔定律的处理器发展速度,整体系统中相对存储性能处理器资源相对过剩,因此对其的额外消耗并不会影响数据库性能。
由于数据库压缩能够显著缓解现有的存储性能瓶颈问题,业界如ORACLE、DB2等成熟商业数据库均已引入压缩技术。当前数据库压缩基本使用的都是基于字典的压缩方法,其基本思路是将数据中频繁出现的数据模式抽取出来作为符号表,并在实际存储中用较简短的引用符号代替以达到压缩的目的。这种基于字典的压缩方式对于大部分应用数据能够取得较好的压缩效果,但诸多现实应用越来越表现出具有应用自身特色的数据分布,在此情况下为了达到最佳的压缩效果,基于字典的压缩方法已经远远不够,需要数据库能够根据数据分布特点提供有针对性的压缩方式。
另一方面,当前数据库压缩底层的存储方式可分为行存储和列存储两种方式。行存储中数据按照元组行形式连续存放和读取,但由于数据表中每个元组行各属性基本无数据关联,因此无法取得良好的压缩效果。而列存储与此相对,它将数据表中每个属性列数据单独连续存放,能极大提高连续数据相似度以达到更高的压缩率,但是同时打破了数据元组行的组织方式又会导致数据库做传统行查询时效率极低。因此若要在数据存储与查询效率之间达到性能均衡,需要数据库提供一种能够结合列存储与行存储两者有点的底层数据组织方式。
针对以上问题,本发明在数据库中提供一种基于行列混合存储的多规则复合压缩方法,对于用户应用数据按行组织,按列压缩,同时能够根据数据分布特点自适应选择合适编码规则进行压缩,从而保证更高压缩率。
发明内容
本发明的目的在于提供一种基于数据库行列混合存储的多规则复合压缩方法。
本发明解决其技术问题采用的技术方案是:
1、一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于采用以下步骤实现::
1)接收用户导入数据,并将所有数据按照用户表属性模式重组分割为多个属性列;
2)对当前数据包内每个属性列数据利用字典规则压缩方法构建字典结构及权重表;
3)针对每个属性列利用构建好的字典和权重信息预估该列使用各种列内压缩规则编码后的大小,根据对比为每个属性列选取空间占用最小的压缩规则;
4)根据各个属性列的字典信息执行列间压缩规则发现步骤,发现合适规则后将预估编码后大小与对应列的列内压缩规则比较,选取空间最优方案;
5)根据最优压缩规则选择方案对数据包内每个属性列数掘进行规则压缩编码;
6)根据目标要求压缩级别,利用通用压缩方法对规则编码后的列数据进行复合压缩,达到预期压缩率后即完成该数据包压缩。
2、根据权利要求1所述的一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于:步骤1)中需要使用压缩缓冲区缓冲外部导入数据,采用行列混合的方式存储导入数据,每当缓冲区接收一定数量行数据即作为一个整体独立的数据包,然后在数据包内结合数据库对应表的模式定义将数据按属性列模式抽取分割并按列存放。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津神舟通用数据技术有限公司,未经天津神舟通用数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210209362.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:绕卷主轴为空心轴的层绕机及绕卷主轴
- 下一篇:面膜载移装置