[发明专利]一种数据处理方法、装置、介质和电子设备在审
申请号: | 202210001643.2 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114442940A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 尤夕多;姚琴;蒋鸿翔;余利华 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/242;G06F16/2455;G06F8/41 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 赵皓天 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 介质 电子设备 | ||
本申请的实施方式提供了一种数据处理方法。该方法可以包括:对接收到的SQL语句进行解析得到执行计划,从中筛选获得包含有写操作的目标执行计划;在所述写操作之前,添加数据聚集操作以获得调整后的目标执行计划;基于所述数据表对应的属性信息,对调整后的目标执行计划进行优化,得到最终执行计划;运行所述最终执行计划,以在针对增量数据的写操作之前,自动完成数据聚集操作。此外,本申请的实施方式提供了一种数据处理装置,介质与电子设备。
技术领域
本申请的实施方式涉及计算机处理领域,更具体地,本申请的实施方式涉及一种数据处理方法、装置、介质和电子设备。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。
在针对数据聚集操作相关技术中,会先从数据表读取存储的数据块,然后针对该数据块进行数据聚集操作,得到数据聚集之后的所述数据块后,再将所述数据块写入数据表。
发明内容
随之而来的问题是,在针对数据聚集操作的相关技术中,需要先读数据,再写数据,比较浪费I/O资源,而且需要手动触发数据聚集操作,比如设置额外的定时任务去触发数据聚集优化,增加任务的维护成本。
为此,非常需要一种数据处理方法,可以在针对增量数据的写操作之前,完成数据聚集操作,从而避免先读取已经完成写入的数据块,进行数据聚集操作后再重新写入这一流程,以及避免设置额外的定时任务去触发所述数据聚集操作,实现了自动数据聚集操作,减少IO资源占用,降低任务的维护成本。
所述增量数据是指新生成的需要写入数据表中的数据。所述数据表可以被维护在数据库中。
在本上下文中,本申请的实施方式期望提供一种数据处理方法、装置、介质和电子设备。
在本申请实施方式的第一方面中,提供了一种数据处理方法,应用于数据处理引擎,所述包括:对接收到的SQL语句进行解析得到执行计划,从中筛选获得包含有写操作的目标执行计划;在所述写操作之前,添加数据聚集操作以获得调整后的目标执行计划;其中,所述数据聚集操作用以调整待写入的增量数据块内所聚合的增量数据的数据分布状态,所述写操作用以将所述增量数据块内所聚合的增量数据按照调整后的数据分布状态写入至数据表;基于所述数据表对应的属性信息,对调整后的目标执行计划进行优化,得到最终执行计划;运行所述最终执行计划。
在本申请实施方式的第二方面中,提供了一种数据处理装置,应用于数据处理引擎,所述装置包括:筛选模块,用于对接收到的SQL语句进行解析得到执行计划,从中筛选获得包含有写操作的目标执行计划;添加模块,用于在所述写操作之前,添加数据聚集操作以获得调整后的目标执行计划;其中,所述数据聚集操作用以调整待写入的增量数据块内所聚合的增量数据的数据分布状态,所述写操作用以将所述增量数据块内所聚合的增量数据按照调整后的数据分布状态写入至数据表;优化模块,用于基于所述数据表对应的属性信息,对调整后的目标执行计划进行优化,得到最终执行计划;运行模块,用于运行所述最终执行计划。
在本申请实施方式的第三方面中,提供了一种计算机可读存储介质,所述介质存储有计算机程序,所述计算机程序用于使处理器执行如前述任一实施例示出的数据处理方法。
在本申请实施方式的第四方面中,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210001643.2/2.html,转载请声明来源钻瓜专利网。