[发明专利]分布式数据处理方法、装置、电子设备及存储介质在审
申请号: | 202111095167.7 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113886491A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 黄强;于泽;郑钦瀚;庄崇宇;邱智敏;黄亮;解翔;仇贲 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/242;G06F16/22 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 刘延喜 |
地址: | 511442 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请提供了分布式数据处理方法、装置、电子设备及存储介质,属于数据库领域。该方法包括:确定分布式数据集对应的分桶字段,基于分桶字段将分布式数据集确定为至少一个数据子集;对于分布式数据集中的每一条数据,基于该数据的分区存储信息确定该数据的分桶编码;基于分布式数据集的数据记录总数或者数据总大小,确定各数据子集对应的数据桶的桶序号;对于每一数据子集中的每一条数据,基于该数据的分桶编码从该数据子集对应的数据桶的桶序号中确定该数据对应的目标桶序号,并将该数据写入目标桶序号对应的数据桶。本申请的实施可将分布式数据中相同字段值的数据集中存储至一个或者多个数据桶中,减少数据分布不均匀的情况。
技术领域
本申请涉及数据库领域,具体而言,本申请涉及一种分布式数据处理方法和装置,一种电子设备,以及一种计算机可读存储介质。
背景技术
在数据仓库建设与数据治理体系中,为了提高DWD(Data Warehouse Detail,数据明细层)的易用性,提升数据查询效率,通常在数据明细层采用一些维度退化手法将分布式数据集进行分区或分桶存储。
但是现有的分布式数据处理方法往往会在不同层级文件夹下出现重复数据,且数据分布不均匀,进而导致数据使用时会消耗更多的计算资源。
发明内容
本申请的目的旨在提供一种分布式数据处理方法、装置、电子设备及存储介质,以解决上述的至少一个技术问题。本申请实施例所提供的方案具体如下:
第一方面,本申请提供了一种分布式数据处理方法,包括:
确定分布式数据集对应的分桶字段,基于上述分桶字段将上述分布式数据集确定为至少一个数据子集,每一上述数据子集对应于上述分桶字段的一个字段值;
对于上述分布式数据集中的每一条数据,基于该数据的分区存储信息确定该数据的分桶编码;
基于上述分布式数据集的数据记录总数或者数据总大小,确定各上述数据子集对应的数据桶的桶序号;
对于每一上述数据子集中的每一条数据,基于该数据的分桶编码从该数据子集对应的数据桶的桶序号中确定该数据对应的目标桶序号,并将该数据写入上述目标桶序号对应的数据桶。
结合第一方面,在第一方面的第一种实施方式中,上述基于上述分布式数据集的数据记录总数,确定各上述数据子集对应的数据桶的桶序号还包括:
基于上述分布式数据集的数据记录总数和预设分桶数,确定桶平均数据记录数;
确定各上述数据子集的数据记录数,基于各上述数据子集的数据记录数和上述桶平均数据记录数,确定各上述数据子集对应的数据桶的桶序号。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,上述基于各上述数据子集的数据记录数和上述桶平均数据记录数,确定各上述数据子集对应的数据桶的桶序号,包括:
将各上述数据子集按照数据记录数由大到小的顺序进行排列,并基于排列顺序确定各上述数据子集对应的数据桶的桶序号;
对于数据子集i,若数据子集i对应的数据记录数Ki与桶平均数据记录数N相等,则确定数据子集i对应的数据桶的桶序号为m+1,其中,当i为大于1的正整数时,m为上一数据子集对应的数据桶中的最大桶序号,当i等于1时,m等于0;
若数据记录数Ki大于桶平均数据记录数N,则确定数据子集i对应的数据桶的最小桶序号为m+1、最大桶序号为其中,表示向上取整;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111095167.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种主动冷却进气道安装结构
- 下一篇:一种人体舌部诊断方法及系统