[发明专利]一种针对训练任务扩容资源不兼容的回滚方法及装置有效
申请号: | 202010079187.4 | 申请日: | 2020-02-03 |
公开(公告)号: | CN111309503B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 马磊 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F9/50 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 训练 任务 扩容 资源 兼容 方法 装置 | ||
本发明提供了一种针对训练任务扩容资源不兼容的回滚方法及装置,所述的方法包括:提交训练任务脚本时,设置一个位置标签;建立pod,执行训练任务;当进行资源扩容后,判断扩容资源是否兼容,若否,进入下一环节;删除扩容资源,新建一个pod;从位置标签处再次加载并执行训练任务。所述的装置包括:第一设置模块,用于在提交训练任务脚本时设置一个位置标签;第一判断模块,用于判断扩容资源是否兼容,若否,转入回滚模块;回滚模块,用于从位置标签处再次加载训练任务。本申请在发生扩容资源不兼容时,能够自动完成训练任务的自动回滚,大大提高了训练效率。
技术领域
本发明涉及通信技术领域,特别是涉及一种针对训练任务扩容资源不兼容的回滚方法及装置。
背景技术
深度学习是机器学习领域中一个新的研究方向,在日常的深度学习中,将有大量的训练任务需要提交进行比较计算,通过结论推测结果。我们会通过模板等方式提交训练任务,当任务运行过程中,如果遇到因为资源不足导致运行错误或者运行缓慢,那么就会通过自动扩容来补充训练任务的资源。
自动扩容执行过程中,后台会根据GPU、CPU、内存、存储的利用率温度等使用情况来判断,是否需要更多的资源,当任务需要更多的资源,且GPU、CPU、内存、存储此刻资源空闲状态,系统会自动将资源根据现有资源匹配给训练任务。如果是多种GPU类型可运行一个训练任务多个副本,但当单个pod扩容资源时,由于扩容的资源类型不同,可能会导致无法兼容而引发训练任务报错,导致训练任务中断。
现有的深度学习过程中,如果遇到上述情况,需要人工重新建立并启动训练任务,耗时耗力,大大降低了训练的效率。
发明内容
本发明实施例中提供了一种针对训练任务扩容资源不兼容的回滚方法及装置,实现了任务的回滚操作,避免了训练中断。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明实施例提供了一种针对训练任务扩容资源不兼容的回滚方法,所述的方法包括:
提交训练任务脚本时,设置一个位置标签;
建立pod,执行训练任务;
当进行资源扩容后,判断扩容资源是否兼容,若否,进入下一环节;
删除扩容资源,新建一个pod;
从位置标签处再次加载并执行训练任务。
进一步的,在训练任务首次创建时,同步设置一个标志位,当再次加载该训练任务时,若检测到该标志位状态发生变化,则该训练任务不允许执行资源扩容操作。
进一步的,检测标志位状态发生变化的具体方法为:当发生扩容操作时,底层判断资源数是否发生变动,若发生变动,则修改标志位状态,否则不修改标志位状态。
进一步的,当重建的训练任务运行达到高峰时,若标志位状态已经发生变化,则仍然不执行扩容操作,直至扩容不兼容的错误原因消除为止。
进一步的,设置位置标签的具体方法为:在提交训练任务的脚本中,设置flags一个checkpoint的标签。
进一步的,判断扩容资源是否兼容的具体方法为:
系统底层基于kubernetes调度GPU;
实时获取调度反馈,若捕获到底层抛出异常,则判定扩容资源不兼容。
基于上述方法,本申请实施例还提供了一种针对训练任务扩容资源不兼容的回滚装置,所述的装置包括:
第一设置模块,用于在提交训练任务脚本时设置一个位置标签;
第一判断模块,用于判断扩容资源是否兼容,若否,转入回滚模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079187.4/2.html,转载请声明来源钻瓜专利网。