[发明专利]基于数据库行列混合存储的多规则复合压缩方法无效
申请号: | 201210209362.2 | 申请日: | 2012-06-25 |
公开(公告)号: | CN102737132A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 曹晖;冯柯;毛云青;何清法;周丽霞;蒋志勇;赵殿奎;关刚;王效忠;李海峰 | 申请(专利权)人: | 天津神舟通用数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 天津市天津华苑*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据库 行列 混合 存储 规则 复合 压缩 方法 | ||
1.一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于采用以下步骤实现::
1)接收用户导入数据,并将所有数据按照用户表属性模式重组分割为多个属性列;
2)对当前数据包内每个属性列数据利用字典规则压缩方法构建字典结构及权重表;
3)针对每个属性列利用构建好的字典和权重信息预估该列使用各种列内压缩规则编码后的大小,根据对比为每个属性列选取空间占用最小的压缩规则;
4)根据各个属性列的字典信息进行列间压缩规则发现,发现合适规则后将预估编码后大小与对应列的列内压缩规则比较,选取空间最优方案;
5)根据最优压缩规则选择方案对数据包内每个属性列数据进行规则压缩编码;
6)根据目标要求压缩级别,利用通用压缩方法对规则编码后的列数据进行复合压缩,达到预期压缩率后即完成该数据包压缩。
2.根据权利要求1所述的一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于:步骤1)中需要使用压缩缓冲区缓冲外部导入数据,采用行列混合的方式存储导入数据,每当缓冲区接收一定数量行数据即作为一个整体独立的数据包,然后在数据包内结合数据库对应表的模式定义将数据按属性列模式抽取分割并按列存放。
3.根据权利要求1所述的一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于:步骤2)使用字典编码的目的是为数据包内各列数据分别建立一个与压缩相关的统计信息以供后续规则选择,字典编码与数据导入及属性列分割过程紧密结合实现对数据的动态编码,当压缩缓冲区接收完一个独立数据包的同时其内部数据也将整体以字典编码结构方式存放,方法的具体实施包含以下内容:
1)为数据包内每个属性列上的字典编码建立辅助数据结构并进行相关内容初始化,字典表采用静态哈希结构,初始设置条目数为数据包行数的两倍以保证较少的冲突率;
2)当新数据元组导入到压缩缓冲区后,将该数据行中每个属性元素分配到对应属性列的字典编码结构中,且获取每一个元素的属性值和长度,以此累积记录每个属性列在不使用压缩规则的情况下的原始数据大小;
3)每个属性列对于新加入的属性元素根据其属性值计算针对字典表的哈希值,然后通过哈希索引找到该属性值在字典表中所对应条目项并更新条目项对应的权重值。如果由于哈希索引的原因发生冲突,条目项已经为其它属性值元素所占据,则采用平方探测法继续寻找下一个对应的条目项,并重复之前的判断和操作。在为属性元素找到对应字典表条目后,压缩缓冲区即可将属性值替换为其对应字典表条目项的编号存储在当前属性列的引用表中;
4)在字典表维护过程中,每插入一定数量属性元素过后,需要对当前字典编码总体大小进行评估。首先得到当前属性列所有属性值在无压缩情况的下的原始大小,同时根据字典表所有存在条目项以及引用表大小预估经过字典编码后的存储大小;
5)当压缩缓冲区接收数据元组总数达到数据包行数上限后,每个属性列字典编码结构也对应建立完成。此时需要将每个属性列的字典表使用针对该属性数据类型的快速排序算法将字典表所有存在条目项进行升序排序,并重新填入字典表中,同时同步更新属性列对座的引用表。
4.根据权利要求1所述的一种基于数据库行列混合存储的多规则复合压缩方法,其特征在于:步骤3)针对每个属性列在之前建立的字典编码结构上,利用基本的字典统计信息进行全面的列内压缩规则评估,具体实施过程包含以下内容:
1)对属性列进行常量编码规则评估,扫描整个字典表寻找权重最大的条目项做为最有可能的常量默认值,同时根据该默认值的权重以及数据包总体行数可估算出异常表的条目数,同时结合属性占用长度可预估出常量编码压缩后大小;
2)对属性列进行游程编码规则评估,扫描属性列上与字典表对座的引用表,在顺序遍历的过程中对连续出现的项进行去重得到游程编码对应的条目项,并最终结合每个条目对应的字典条目项可得到最后游程编码的总体压缩后大小;
3)对属性列进行序列编码规则评估,按行顺序遍历属性列,以首行属性值作为基准计算各行相对差值,然后通过合计各个不同差值的字节长度即可得到最后序列编码规则的压缩大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津神舟通用数据技术有限公司,未经天津神舟通用数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210209362.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:绕卷主轴为空心轴的层绕机及绕卷主轴
- 下一篇:面膜载移装置