[发明专利]一种数据处理的方法和装置有效
申请号: | 202111156887.X | 申请日: | 2021-09-30 |
公开(公告)号: | CN113595557B | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 李金虎;王广官 | 申请(专利权)人: | 阿里云计算有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 310024 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明实施例提供了一种数据处理的方法和装置,所述方法包括:获取目标数据;对所述目标数据进行分块,得到一个或多个数据块;针对每个数据块,确定一个或多个数据单元集,并分别对所述一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据;根据所包含的数据单元集的压缩数据,得到每个数据块的压缩数据,并根据所述一个或多个数据块的压缩数据,得到所述目标数据的压缩数据。通过本发明实施例,实现了更加高效的并行数据压缩,具有较高的压缩率和较快的压缩速度,且压缩率无需依赖分块的大小。
技术领域
本发明涉及压缩技术领域,特别是涉及一种数据处理的方法和装置。
背景技术
随着计算机及互联网技术的发展,产生的数据量越来越多,庞大的数据量对数据存储和网络传输带来了很大的挑战,为节省存储空间或传输带宽,已经在计算机系统中广泛地使用了数据压缩技术。
在磁介质存储数据或网络传输数据时,通常使用基于硬件或软件的各种压缩技术,但现有的压缩技术均无法获得较高的压缩率和较快的压缩速度。
例如,在熵编码中,通过统计待压缩数据中的某些数据段或字符串出现概率,生成码字,概率高的数据使用最短的码字,用码字+少量数据的内容替换原始数据,一般码字+少量数据的长度小于原始数据的长度,从而达到压缩的效果,但由于需要先基于统计信息生成一定的码字,需要对整个待压缩数据进行一次以上遍历,影响了压缩算法的速度。
又如,在字典编码中,使用滑动窗口对待压缩数据进行扫描,扫描中的数据与已经扫描过的数据进行字典匹配,得到匹配数据信息,使用匹配信息对数据进行编码以达到压缩效果,但滑动窗口扫描的方式只能串行进行。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置,包括:
一种数据处理的方法,所述方法包括:
获取目标数据;
对目标数据进行分块,得到一个或多个数据块;
针对每个数据块,确定一个或多个数据单元集,并分别对一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据;
根据所包含的数据单元集的压缩数据,得到每个数据块的压缩数据,并根据一个或多个数据块的压缩数据,得到目标数据的压缩数据。
可选地,分别对一个或多个数据单元集进行压缩,得到每个数据单元集的压缩数据,包括:
对于每个数据单元集,根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,并按照一种或多种字节组合方式,对数据单元集进行压缩,得到一个或多个候选压缩数据;
从一个或多个候选压缩数据中,确定数据单元集的压缩数据。
可选地,根据所包含的数据单元的字节长度之和,确定一种或多种字节组合方式,包括:
在当前数据单元集所包含的数据单元的字节长度之和等于预设字节长度的情况下,根据预设字节长度,确定一个或多种字节组合方式;
在当前数据单元集所包含的数据单元的字节长度之和小于预设字节长度的情况下,根据当前数据单元所包含的数据单元的字节长度之和,确定一种或多种字节组合方式。
可选地,从一个或多个候选压缩数据中,确定数据单元集的压缩数据,包括:
从一个或多个候选压缩数据中,确定字节长度最短的候选压缩数据为数据单元集的压缩数据。
可选地,针对每个数据块,确定一个或多个数据单元集,包括:
针对每个数据块,从所包含的数据单元中,依次确定字节长度之和等于预设字节长度的一个或多个数据单元,作为一个数据单元集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里云计算有限公司,未经阿里云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111156887.X/2.html,转载请声明来源钻瓜专利网。