[发明专利]一种深度学习模型训练容错方法、系统、终端及存储介质有效

申请号：	201910820081.2	申请日：	2019-08-31
公开（公告）号：	CN110737504B	公开（公告）日：	2022-10-18
发明（设计）人：	刘娜	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F9/455	分类号：	G06F9/455;G06F11/14;G06N20/00
代理公司：	济南舜源专利事务所有限公司 37205	代理人：	刘雪萍
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度学习模型训练容错方法系统终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种深度学习模型训练容错方法、系统、终端及存储介质，包括：通过设置内部事件实时将模型状态数据保存至容器所在物理节点；获取异常容器的配置信息；获取所述模型状态数据存储路径，并根据所述存储路径和所述配置信息定义容器对象；利用kubernetes根据所述容器对象恢复容器，读取所述恢复容器的模型状态数据恢复容器训练状态。本发明可以最大限度的将训练过程恢复到发生异常前的状态，将异常带来的损失降到最低，极大弥补了容器不稳定在深度学习领域带来的问题。同时该发明极大的提高了aistation在同类产品中的竞争力。

技术领域

本发明涉及服务器测试技术领域，具体涉及一种深度学习模型训练容错方法、系统、终端及存储介质。

背景技术

深度学习训练过程在容器中进行，是当前主流的技术方向，尤其是kubernetes这一优秀的容器管理平台的出现，让这种技术方案被更多的企业和个人所接受，而且是产品化的一个主要技术。kubernetes对于容器的调度，自动运维功能，让训练任务可以更容易的在容器运行，但是现在有一个比较严重的问题，就是容器相比较虚拟机，物理机，它的稳定性还是比较差的，如果训练任务在容器中运行，则必须要承担容器异常，训练被终止的风险。可是训练任务有时候周期会比较长，如果训练到末尾容器异常，那么之前的训练则可能前功尽弃，需要重新再来，这种成本付出是很多企业和个人无法忍受的。

因此，急需一种具有高容错性的深度学习训练模型。

发明内容

针对现有技术的上述不足，本发明提供一种深度学习模型训练容错方法、系统、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种深度学习模型训练容错方法，包括：

通过设置内部事件实时将模型状态数据保存至容器所在物理节点；

获取异常容器的配置信息；

获取所述模型状态数据存储路径，并根据所述存储路径和所述配置信息定义容器对象；

利用kubernetes根据所述容器对象恢复容器，读取所述恢复容器的模型状态数据恢复容器训练状态。

进一步的，所述获取异常容器的配置信息，包括：

读取etcd组件中容器资源的配置信息；

从所述配置信息中筛选异常容器的资源配置信息和所在物理节点IP信息。

进一步的，所述获取模型状态数据存储路径，并根据所述存储路径和所述配置信息定义容器对象，包括：