[发明专利]数据压缩的方法和装置有效

专利信息
申请号: 201210142169.1 申请日: 2012-05-09
公开(公告)号: CN102708183A 公开(公告)日: 2012-10-03
发明(设计)人: 陈系华;张亮 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京龙双利达知识产权代理有限公司 11329 代理人: 王君;肖鹂
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据压缩 方法 装置
【说明书】:

技术领域

发明实施例涉及数据存储领域,并且更具体地,涉及数据压缩的方法和装置。

背景技术

经过多年的系统建设和优化完善,电信领域经营分析系统已经建立了面向电信企业运营的数据信息平台。但是随着时间推移和加速增长的业务量,数据仓库中存储的数据加速膨胀,必须通过不断扩容满足存储要求,造成了数据仓库的成本高收益低,最终扩无可扩的局面。为应对上述挑战,电信行业数据仓库系统逐步引入了分级存储策略,根据数据创建时间、访问频率和访问时间的响应要求将数据按生命周期分为在线、近线、归档和销毁等级别。通过生命周期策略和分级存储策略的有机结合,将数据动态迁移或加载到最适合的存储介质中,达到各类存储的最佳搭配,以便控制信息技术(IT,Information Technology)设备的投资规模,同时获得更好的效益。

生命周期为近线级别的数据也称为近线数据。近线数据常用来完成历史数据对比分析、营销轨迹分析和数据挖掘等对电信领域经营分析具有重要意义的数据分析,其显著特点是数据量大,扫描范围广;以查询为主,但并发量小。近线数据采用数据压缩机制进行压缩既能提升存储利用率,又可提高数据分析效率。电信领域中的近线数据有以下适合压缩的特点:

1、属性值为特征串时,有固定的编码约定。

字符串包括特征串。举例来说,国际移动装备辨识码(IMEI,International Mobile Equipment Identity)或国际移动用户识别码(IMSI,International Mobile Subscriber Identification number)是典型的特征串。对于特定运营商,特征串类型的属性值中大量地重复前缀或后缀编码。其中属性在编码中与一个或多个字段对应,属性值与字段值对应。

2、属性值为低基数的可选值,并且属性之间存在组合关系的基数同样较低。

低基数是指这个属性只有很少的可选取值。如属性为话单类型时,话单类型的基数为2,目前只包括语音话单和短信话单两种属性值;如属性为呼叫类型时,呼叫类型的基数为3。话单类型和呼叫类型之间存在基数为6的组合关系。在这6种组合关系中,其中个别组合关系出现的重复性远大于其他几种组合关系。

3、属性值之间存在逻辑或计算关系。

举例来说,如用户信息表中的属性“用户标识”对应的字段的编码编号规则如下:

用户标识=所属地区编号(字段)+‘0’+所属地区编号(字段)+流水号。属性值存在字段间的重复编码,例如上述等式中的“所述地区编号”。

4、非连续存储的许多记录间存在逻辑关联,且只存在少数属性的差异,而大部分属性相同。最常见场景为以时间轴模式保存业务办理变更,最新记录被从当前记录复制,更新业务对应的字段;更新当前的记录为历史记录状态。

数据压缩的基本原理是:按照特定的编码机制,以比未经编码数据少的数据比特,或者其它信息相关的数据单位表示原数据。出现概率高的数据,也称为重复数据尽量以短编码标识,而概率低的数据则可以使用长编码标识。因此,重复数据越多,可能获得的压缩比越高,相应地存储利用率也就越高。其中压缩比是数据压缩器压缩效率的质量标识,满足以下公式:

压缩比=压缩掉的数据单位/压缩前的数据单位

近线数据采用数据压缩机制进行压缩既能提升存储利用率,又可提高数据分析效率。然而,现有技术中对近线数据进行压缩的压缩比较低。

发明内容

本发明实施例提供一种数据压缩的方法和装置,能够提高数据压缩的压缩比。

一方面,提供了一种数据压缩方法,包括:

根据原始数据生成用于数据相似性检测的数字指纹;根据所述数字指纹确定与所述原始数据具有数据相似性的数据块,将所述原始数据路由到确定的数据块的压缩进程;执行所述确定的数据块的压缩进程,完成对所述原始数据的压缩。

另一方面,提供了一种数据压缩装置,包括:

所述数字指纹生成器用于根据原始数据生成用于数据相似性检测的数字指纹;所述数据路由模块用于根据所述数字指纹生成器生成的所述数字指纹确定与所述原始数据具有数据相似性的数据块,将所述原始数据路由到确定的所述数据块的压缩进程;所述压缩模块用于执行所述确定的数据块的压缩进程,完成原始数据的压缩。

上述技术方案可以利用原始数据生成的数字指纹的数据相似性,将数据压缩到指定的数据块,从而提高数据压缩的压缩比。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210142169.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top