[发明专利]用于列表数据压缩的多重分类有效
| 申请号: | 201380017113.6 | 申请日: | 2013-03-13 |
| 公开(公告)号: | CN104205065B | 公开(公告)日: | 2017-09-29 |
| 发明(设计)人: | J·阿米特;L·德米多夫;N·哈洛瓦尼;S·马伦科夫 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F12/00 | 分类号: | G06F12/00;G06F5/00;G06F17/30 |
| 代理公司: | 北京市金杜律师事务所11256 | 代理人: | 酆迅,张凡 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 列表 数据压缩 多重 分类 | ||
1.一种在计算环境中由处理器设备进行的用于列表数据压缩的多重分类的方法,所述方法包括:
将相似类型的数据段分类到多个类别之一,以用于将所述数据段分组成与所述多个类别中的每个类别关联的压缩流,其中所述压缩流基于类别特定的优化编码操作而被编码;以及
将所述压缩流组合到一个输出缓冲器中,其中所述压缩流被提取;
还包括与对所述压缩流进行编码结合地执行以下各项中的至少一项:
分配填充首部;
检测所述压缩流的压缩类型;
如果检测到的所述压缩类型是普通压缩,则
设置所述普通压缩,
设置未压缩大小,并且
写入压缩的数据;
如果检测到的所述压缩类型是列压缩,则
写入用于所述列压缩的流式器数目,并且
写入正被处理的列编号,
写入未压缩的数据大小,并且
写入列压缩的数据;
如果检测到的所述压缩类型是普通列压缩,则
写入用于所述普通列压缩的流式器数目,
写入正被处理的列编号,
写入未压缩的数据大小,
写入普通列压缩的数据,并且
重复写入所述流式器数目、所述列编号和所述普通列压缩的数据直至所有普通列压缩流被处理。
2.根据权利要求1所述的方法,其中所述多个类别至少包括文本、数字、日期、二进制数、XML/HTML标签和电子邮件地址类别的分类。
3.根据权利要求2所述的方法,其中所述一个输出缓冲器至少包含列压缩流、普通列压缩流和普通压缩流。
4.根据权利要求1所述的方法,还包括与提取所述压缩流结合地执行以下各项中的至少一项:
读取填充首部并且提取总压缩大小;
提取压缩类型;
如果所述压缩类型是普通压缩,则
读取未压缩大小,并且
提取压缩的数据;
如果所述压缩类型是列压缩,则
提取用于所述列压缩的流式器数目,并且
提取正被处理的列编号,
提取未压缩的数据大小,并且
提取列压缩的数据;
如果所述压缩类型是普通列压缩,则
提取用于所述普通列压缩的流式器数目,
提取正被处理的列编号,
提取未压缩的数据大小,
提取普通列压缩的数据,并且
提取所述流式器数目、所述列编号和所述普通列压缩的数据直至所有普通列压缩流被提取。
5.根据权利要求1所述的方法,其中所述分类使用多个小词典以辅助短权标压缩。
6.根据权利要求1所述的方法,其中所述分类保持较大压缩窗,允许对重复的识别。
7.根据权利要求1所述的方法,还包括将多个列栏压缩操作中的至少一个列栏压缩操作应用于所述压缩流中的每个压缩流以用于产生增加的压缩比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380017113.6/1.html,转载请声明来源钻瓜专利网。





