[发明专利]数据处理方法及装置、电子设备和计算机可读存储介质在审
申请号: | 202010568444.0 | 申请日: | 2020-06-19 |
公开(公告)号: | CN113778727A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 揣龙;方伟 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/30;G06F16/18 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本公开是关于一种数据处理方法及装置、电子设备以及存储介质,涉及大数据技术领域,可以应用于实时判断大数据平台中的计算任务是否存在数据倾斜的场景。该数据处理方法包括:获取计算任务的实时数据;实时数据包括多个子任务的任务数量、各子任务的执行时间和数据量;根据各执行时间生成任务时间序列,并根据任务时间序列和任务数量确定时间倾斜度;根据各数据量生成数据量序列,并根据数据量序列和任务数量确定数据量倾斜度;根据时间倾斜度和数据量倾斜度确定计算任务的数据倾斜等级,以根据数据倾斜等级对计算任务进行处理。本公开可以实时判断大数据平台中的计算任务是否存在数据倾斜,以根据判断结果对相关计算任务进行报警和干预。
技术领域
本公开涉及大数据技术领域,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
背景技术
随着大数据时代的到来,大多数业务场景每天都伴随着海量的数据计算,每天数据分布也随之改变,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。这种方式对任务运行稳定性造成严重影响,无法保障数据按时稳定输出。
目前,现有的大数据平台诊断方法,可以对任务运行结束时间进行超时诊断处理,并在任务结束时对任务进行离线分析处理。当任务运行时间超出设定阈值时进行预警提示,在任务结束时通过离线分析得出倾斜结果。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服现有的离线数据倾斜判断方法存在滞后性且无法保证任务时效性的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本公开的第一方面,提供一种数据处理方法,包括:获取计算任务的实时数据;其中,计算任务包括多个子任务,实时数据包括多个子任务的任务数量、各子任务的执行时间和各子任务的数据量;根据各执行时间生成任务时间序列,并根据任务时间序列和任务数量确定时间倾斜度;根据各数据量生成数据量序列,并根据数据量序列和任务数量确定数据量倾斜度;根据时间倾斜度和数据量倾斜度确定计算任务的数据倾斜等级,以根据数据倾斜等级对计算任务进行处理。
可选的,获取计算任务的实时数据,包括:获取计算任务的实时运行数据以及计算任务的历史日志文件;根据实时运行数据与历史日志文件生成实时数据。
可选的,根据任务时间序列和任务数量确定时间倾斜度,包括:根据任务时间序列确定多个子任务的任务总时间,并根据任务总时间和任务数量确定多个子任务的时间均值;根据时间均值对任务时间序列进行分组处理,以得到初始时间分组;其中,初始时间分组包括第一初始时间分组和第二初始时间分组;根据第一初始时间分组和第二初始时间分组确定时间倾斜度。
可选的,根据第一初始时间分组和第二初始时间分组确定时间倾斜度,包括:将第一初始时间分组的时间均值确定为第一时间均值,并将第二初始时间分组的时间均值确定为第二时间均值;根据第一时间均值和第二时间均值确定迭代时间均值,并根据迭代时间均值对任务时间序列进行迭代划分,得到迭代时间分组;其中,迭代时间分组包括第一迭代时间分组和第二迭代时间分组;将第一迭代时间分组的时间均值确定为第三时间均值,并将第二迭代时间分组的时间均值确定为第四时间均值;根据第三时间均值和第四时间均值确定时间倾斜度。
可选的,根据第三时间均值和第四时间均值确定时间倾斜度,包括:将第三时间均值和第四时间均值中的较小值作为较小时间均值;将第三时间均值和第四时间均值之间差值的绝对值作为时间差值绝对值;根据较小时间均值和时间差值绝对值确定所述时间倾斜度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010568444.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生物纤维环制备方法
- 下一篇:唇部关键点的定位方法及装置、存储介质、电子设备