[发明专利]一种数据处理方法、装置、介质和电子设备在审
申请号: | 202210001643.2 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114442940A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 尤夕多;姚琴;蒋鸿翔;余利华 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/242;G06F16/2455;G06F8/41 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 赵皓天 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 介质 电子设备 | ||
1.一种数据处理方法,应用于数据处理引擎,其特征在于,包括:
对接收到的SQL语句进行解析得到执行计划,从中筛选获得包含有写操作的目标执行计划;
在所述写操作之前,添加数据聚集操作以获得调整后的目标执行计划;
其中,所述数据聚集操作用以调整待写入的增量数据块内所聚合的增
量数据的数据分布状态,所述写操作用以将所述增量数据块内所聚合的增量数据按照调整后的数据分布状态写入至数据表;
基于所述数据表对应的属性信息,对调整后的目标执行计划进行优化,得到最终执行计划;
运行所述最终执行计划。
2.根据权利要求1所述的方法,其特征在于,所述数据处理引擎包括Spark引擎;所述Spark引擎采用的数据处理协议为Parquet协议。
3.根据权利要求2所述的方法,其特征在于,所述增量数据块内聚合的每一条增量数据由多个字段对应的子数据聚合而成;所述数据聚集操作包括数据映射操作与数据排序操作;
所述数据聚集操作用以调整待写入的增量数据块内所聚合的增量数据的数据分布状态,包括:
针对所述增量数据块内聚合的每一条增量数据,通过所述数据映射操作,从所述增量数据包含的多个字段的子数据中筛选至少两个字段的子数据作为目标子数据进行映射,得到所述增量数据对应的映射数据;
通过所述数据排序操作对每一条增量数据对应的映射数据所构成的映射数据集合进行排序,以得到对应的数据排序结果;
基于所述数据排序结果调整所述增量数据块内所聚合的增量数据的数据分布状态。
4.根据权利要求3所述的方法,其特征在于,所述针对所述增量数据块内聚合的每一条增量数据,通过所述数据映射操作,从所述增量数据包含的多个字段的子数据中筛选至少两个字段的子数据作为目标子数据进行映射,得到每一条所述增量数据对应的映射数据,包括:
针对所述增量数据块内聚合的每一条增量数据,执行以下步骤,以得到每一条增量数据对应的映射数据:
将所述目标子数据转换为对应的预设进制数;
获取所述目标子数据中每一子数据对应的所述预设进制数首位上的数字,并按照预先指定的数字排列顺序,对所获取的预设进制数首位上的数字进行排列,得到映射数字序列;
继续获取所述目标子数据中每一子数据对应的所述预设进制数的第二位上的数字,并按照所述数字排列顺序,在所得到的映射数字序列的末尾继续对所获取的预设进制数第二位上的数字进行排列,得到更新的所述映射数字序列;
以此类推,直到获取所述目标子数据中每一子数据对应的所述预设进制数的最后一位上的数字,并按照所述数字排列顺序,在上一次排列之后得到的映射数字序列的末尾,继续对所获取的预设进制数的最后一位上的数字进行排列,最终得到所述增量数据对应的映射数据。
5.根据权利要求3所述的方法,其特征在于,所述通过所述数据排序操作对每一条增量数据对应的映射数据所构成的映射数据集合进行排序,以得到对应的数据排序结果,包括:
依据每一条增量数据对应的映射数据的大小,对所述映射数据集合内的映射数据进行升序排列或降序排列,以得到对应的数据排序结果。
6.根据权利要求3所述的方法,其特征在于,所述基于所述数据排序结果调整所述增量数据块内所聚合的增量数据的数据分布状态,包括:
按照所述数据排序结果指示的所述映射数据集合内映射数据的排列顺序,调整所述增量数据块内对应的增量数据的排列顺序。
7.根据权利要求3所述的方法,其特征在于,所述数据表对应的属性信息包括第一配置信息与第二配置信息;
其中所述第一配置信息用于指示是否对所述增量数据块开启数据聚集操作;所述第二配置信息用于在对所述增量数据块开启数据聚集操作的情况下,指示所述多个字段中的至少两个预设字段,以基于该至少两个预设字段,从所述增量数据包含的多个字段的子数据中筛选至少两个字段的子数据作为目标子数据进行映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210001643.2/1.html,转载请声明来源钻瓜专利网。