[发明专利]一种基于列式存储格式处理数据的方法和装置在审
| 申请号: | 201910216038.5 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN111723089A | 公开(公告)日: | 2020-09-29 |
| 发明(设计)人: | 颜博;丁一 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;伊明明 |
| 地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 存储 格式 处理 数据 方法 装置 | ||
本发明公开了一种基于列式存储格式处理数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收批量目标数据;根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。该方法能够降低压缩率和数据存储资源,解决了文件膨胀问题。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于列式存储格式处理数据的方法和装置。
背景技术
由列式存储格式的特点可知,使用列式存储时每一列的所有元素都是顺序存储的。其中,列式存储格式也有很多,例如ORC(Optimized Row Columnar)存储格式。对于批量数据的存储,降低其压缩率是非常必要的。
现有技术中,区别于行式存储格式,ORC采用的列式存储可在自己的存储单元内可以保持数据格式的一致性,从而可以提升压缩率。以及,在列信息的存储单元内ORC会判断当前列信息的聚族程度,以来决定是否使用字典编码进行进一步压缩,这些操作可节约数据的存储空间,而多级索引的模式可以根据各级统计信息大幅提升数据的查询效率。其中,字典编码是指当某个字段有大量相同的枚举值时会把相同的枚举值统一用某个字典编码表示,不会重复记录多次。虽然通过上述方式可在一定程度上降低数据文件的压缩率,但是上述操作没有非常充分,很多情况下,处理结果的压缩率还是无法满足需求。
发明内容
有鉴于此,本发明实施例提供一种基于列式存储格式处理数据的方法和装置,能够降低压缩率和数据存储资源,解决了ORC文件膨胀的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于列式存储格式处理数据的方法。
本发明实施例的基于列式存储格式处理数据的方法包括:接收批量目标数据;根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。
可选地,基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理之后,还包括:确定逻辑处理后所述批量目标数据的压缩率;根据所述压缩率,判断是否对所述批量目标数据进行重新排序;如果是,则根据目标数据的字段信息,确定所述批量目标数据间的新的相似度;以及,根据确定的新的相似度对所述批量目标数据进行排序。
可选地,根据目标数据的字段信息,确定所述批量目标数据之间的相似度的步骤包括:分析目标数据的字段信息,从所述目标数据的所有字段中筛选出多个排序字段;关联目标数据的所述多个排序字段的字段信息,确定所述批量目标数据之间的相似度。
可选地,基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理的步骤包括:基于排序结果,按照列式存储格式将所述批量目标数据存储至Hive数据仓库中;和/或,所述列式存储格式为ORC文件存储格式。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种基于列式存储格式处理数据的装置。
本发明实施例的基于列式存储格式处理数据的装置包括:
接收模块,用于接收批量目标数据;
排序模块,用于根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;
逻辑处理模块,用于基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。
可选地,本发明实施例的基于列式存储格式处理数据的装置还包括检测模块,用于确定逻辑处理后所述批量目标数据的压缩率;根据所述压缩率,判断是否对所述批量目标数据进行重新排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司,未经北京沃东天骏信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910216038.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:透明导电膜及其制备方法
- 下一篇:基于亚音频的啸叫识别方法及设备





