[发明专利]数据处理任务的并行度调整方法、装置、设备及介质在审
申请号: | 202210185682.2 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114637584A | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 谷兰芝 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 李礼 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 任务 并行 调整 方法 装置 设备 介质 | ||
本发明公开了一种数据处理任务的并行度调整方法、装置、设备及介质,该方法通过确定数据处理系统的当前执行作业的预计处理时间、当前执行作业对应的下游作业的预计处理时间,根据该预计处理时间判断系统针对下游作业的执行时间是否超时,如果是,则根据系统的当前吞吐量、当前执行作业的预计处理时间、下游作业的预计处理时间以及作业依赖关系,调整下游作业对应的执行并行度,以实现下游作业的执行并行度的动态调整,通过动态扩容保证下游作业按时完成,解决由于上游作业延迟所导致的下游作业超时的技术问题。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据处理任务的并行度调整方法、装置、设备及介质。
背景技术
通常,数据处理是“收集和处理数据项以产生有意义的信息。”从这个意义上讲,它可以被视为信息处理的子集,信息的变化(处理)可以通过任何方式检测到。数据处理任务,在大数据系统中通常指提交数据处理的大数据作业。在大数据处理系统中,作业是一系列并行任务的总集。通常说一个处理作业,会分成若干个处理阶段(例如map阶段和reduce阶段),对于每个阶段,包括若干个相同的处理任务并行地执行。
以Hadoop为例,简单介绍数据处理任务调度的过程。Hadoop早期的主要目的是运行大型批处理作业,例如Web索引和日志挖掘。用户将作业提交到队列,然后集群按顺序运行它们。当作业提交到Hadoop的管理节点的时候,会被分割为若干个阶段(例如map阶段和reduce阶段),各个阶段又分为若干个任务。任务的调度根据优先级和集群中各个处理节点可用的资源进行,包括先入先出、公平调度和容量相关的调度策略。
然而,在现有技术方案中,通常为各个作业设置了固定的并行度,若上游作业超时,下游作业固定并行度配额,不作额外处理,导致下游作业一并超时。
发明内容
本发明提供了一种数据处理任务的并行度调整方法、装置、设备及介质,实现下游作业的执行并行度的动态调整,解决由于上游作业延迟导致的下游作业超时的技术问题。
根据本发明的一方面,提供了一种数据处理任务的并行度调整方法,该方法包括:
确定数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间;
基于所述预计处理时间判断所述数据处理系统针对所述下游作业的执行时间是否超时;
若是,则基于所述数据处理系统的当前吞吐量、所述当前执行作业的预计处理时间、所述下游作业的预计处理时间以及作业依赖关系,调整所述下游作业对应的执行并行度。
可选的,所述确定数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间,包括:
获取数据处理系统的历史作业统计信息;
基于所述历史作业统计信息确定所述数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间。
可选的,所述基于所述历史作业统计信息确定所述数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间,包括:
基于所述历史作业统计信息确定历史作业对应的历史任务的吞吐量;
基于所述历史任务的吞吐量,确定所述当前执行作业以及所述当前执行作业对应的下游作业的吞吐量;
根据所述当前执行作业以及所述下游作业的吞吐量,确定所述当前执行作业以及所述下游作业的预计处理时间。
可选的,所述基于所述预计处理时间判断所述数据处理系统针对所述当前执行作业对应的下游作业的执行时间是否超时,包括:
获取所述的当前执行作业的预设处理时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210185682.2/2.html,转载请声明来源钻瓜专利网。