[发明专利]基于强化学习的深度学习训练作业资源放置系统及方法在审
申请号: | 202110874519.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113535365A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 周悦媛;杨康;章家维;邵恩;谭光明 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06T1/20;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 深度 训练 作业 资源 放置 系统 方法 | ||
本发明涉及计算资源调度技术领域,具体公开了基于强化学习的深度学习训练作业资源放置系统及方法,方法包括如下步骤:随机初始化DRL神经网络模型的参数;生成批量作业的状态向量;将状态向量送入DRL神经网络模型中推理得到批量作业的放置位置信息,并按照该放置位置信息进行作业放置,得到批量作业运行的最大完成时间记为T_RL;随机生成若干放置位置信息,并按照该随机生成的放置位置信息进行作业放置,得到该批量作业的若干最大完成时间,取得其中最小的最大完成时间记为T_Random;基于最大完成时间T_RL和最大完成时间T_Random计算奖励;反向梯度更新DRL神经网络模型的参数。采用本发明的技术方案能够在资源出错场景下对DLT作业进行自适应放置。
技术领域
本发明涉及计算资源调度技术领域,特别涉及基于强化学习的深度学习训练作业资源放置系统及方法。
背景技术
深度学习训练(Deep Learning Training,DLT)作业通常是计算密集型的任务,需要性能强大而昂贵的计算资源,例如GPU设备,为了处理规模不断增长的训练数据,目前大多数主流的IT公司或企业通过GPU服务器集群来运行DLT作业,执行分布式深度学习(Distributed Deep Learning,DDL)训练以并行利用多个GPU,从而降低单个GPU上的负载,加快模型的训练速率。
多机多卡训练模式是大规模分布式DLT作业的主要特征,随着系统复杂性的提高,作业出错概率会同比上升。并且,DLT作业训练时间普遍较长,而长时间的运行也会提高作业出错的概率。此外,在多租户多作业场景下的频繁提交通常也会带来作业出错概率的上升。而DLT作业出错是造成系统资源利用率下降的重要原因之一,作业出错所带来的时间开销是不可忽视的,出错次数越多,由出错导致的作业重启开销和资源恢复开销就越大,资源利用率就越低。
为了更好的在集群资源出错的场景下对DLT作业进行合理的放置,现有技术中提出了基于集群容量感知的方法和基于负载干扰感知的方法。其中,基于集群容量感知的方法未考虑到集群中不同GPU的出错特性,例如,当出错概率较低的GPU设备长期处于相对高负荷的状态时,调度策略都有很大可能将多卡DLT大作业频繁放置于出错概率较高的GPU设备上,这会使作业多次重启,造成资源利用率的下降。基于负载干扰感知的方法虽然在很大程度上避免了由于DLT作业间的干扰带来的训练性能降级和资源利用率下降,但仍然未考虑集群中各个GPU设备的出错特性,例如,若集群中出错概率较高的GPU分布分散,在将干扰程度较大的分布式多卡DLT作业分开放置时就很可能会放置到出错概率较高的GPU上,从而导致作业频繁重启,带来更严重的训练性能和资源利用率的下降。
强化学习(Reinforcement Learning,RL)与传统的深度学习方法类似,也是一种自学习方法,但深度学习是通过学习已有数据中的特征,对未知数据做出预测,是一种静态的学习算法。而RL是通过对未知环境的不断探索,进而建立决策模型并学习得到最优策略的一个过程,是一种动态的学习算法。因此,在某种程度上,RL更符合人类的思维方式和学习过程,尤其是融入了深度学习技术的RL,即深度强化学习(Deep ReinforcementLearning,DRL),被公认为是最接近真正人工智能的一种范式。
因此,如何将DRL算法应用到资源调度即作业放置位置的决策问题中,在集群资源出错的场景下对DLT作业进行合理的放置以尽可能最大化资源利用率、提升用户服务质量,成了需要解决的问题。
发明内容
本发明的目的之一在于提供基于强化学习的深度学习训练作业资源放置方法,能够在资源出错场景下对DLT作业进行自适应放置。
为了解决上述技术问题,本申请提供如下技术方案:
基于强化学习的深度学习训练作业资源放置方法,包括如下步骤:
初始化步骤:随机初始化DRL神经网络模型的参数;
状态向量生成步骤:生成批量作业的状态向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110874519.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及电子设备
- 下一篇:雷达的安装装置及汽车