[发明专利]一种基于列式存储格式处理数据的方法和装置在审
| 申请号: | 201910216038.5 | 申请日: | 2019-03-21 |
| 公开(公告)号: | CN111723089A | 公开(公告)日: | 2020-09-29 |
| 发明(设计)人: | 颜博;丁一 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;伊明明 |
| 地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 存储 格式 处理 数据 方法 装置 | ||
1.一种基于列式存储格式处理数据的方法,其特征在于,包括:
接收批量目标数据;
根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;
基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。
2.根据权利要求1所述的方法,其特征在于,基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理之后,还包括:
确定逻辑处理后所述批量目标数据的压缩率;
根据所述压缩率,判断是否对所述批量目标数据进行重新排序;
如果是,则根据目标数据的字段信息,确定所述批量目标数据间的新的相似度;以及,根据确定的新的相似度对所述批量目标数据进行排序。
3.根据权利要求1所述的方法,其特征在于,根据目标数据的字段信息,确定所述批量目标数据之间的相似度的步骤包括:
分析目标数据的字段信息,从所述目标数据的所有字段中筛选出多个排序字段;
关联目标数据的所述多个排序字段的字段信息,确定所述批量目标数据之间的相似度。
4.根据权利要求1-3任一项所述的方法,其特征在于,
基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理的步骤包括:基于排序结果,按照列式存储格式将所述批量目标数据存储至Hive数据仓库中;和/或,
所述列式存储格式为ORC文件存储格式。
5.一种基于列式存储格式处理数据的装置,其特征在于,包括:
接收模块,用于接收批量目标数据;
排序模块,用于根据目标数据的字段信息,确定所述批量目标数据之间的相似度;以及,根据确定的相似度对所述批量目标数据进行排序;
逻辑处理模块,用于基于排序结果,按照列式存储格式对所述批量目标数据进行逻辑处理。
6.根据权利要求5所述的装置,其特征在于,还包括检测模块,用于确定逻辑处理后所述批量目标数据的压缩率;根据所述压缩率,判断是否对所述批量目标数据进行重新排序;
检测模块判断对所述批量目标数据进行重新排序,则所述排序模块根据目标数据的字段信息,确定所述批量目标数据间的新的相似度;以及,根据确定的新的相似度对所述批量目标数据进行排序。
7.根据权利要求5所述的装置,其特征在于,所述排序模块还用于,分析目标数据的字段信息,从所述目标数据的所有字段中筛选出多个排序字段;关联目标数据的所述多个排序字段的字段信息,确定所述批量目标数据之间的相似度。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述逻辑处理模块还用于,基于排序结果,按照列式存储格式将所述批量目标数据存储至Hive数据仓库中;和/或,
所述列式存储格式为ORC文件存储格式。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司,未经北京沃东天骏信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910216038.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:透明导电膜及其制备方法
- 下一篇:基于亚音频的啸叫识别方法及设备





