[发明专利]深度学习系统中任务训练的管理方法和计算机存储介质在审
| 申请号: | 201910739745.2 | 申请日: | 2019-08-12 |
| 公开(公告)号: | CN110569104A | 公开(公告)日: | 2019-12-13 |
| 发明(设计)人: | 李栋梁 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/48;G06F9/50;G06K9/62 |
| 代理公司: | 11262 北京安信方达知识产权代理有限公司 | 代理人: | 张建秀;解婷婷 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练操作 消息传递接口 方法和装置 节点分配 学习系统 申请 管理 | ||
1.一种深度学习系统中任务训练的管理方法,其特征在于,包括:
获取执行消息传递接口MPI任务的训练操作的至少两个节点;
为所述至少两个节点分配对应的容器;
控制所述至少两个节点在各自对应的容器中进行MPI任务的训练操作。
2.根据权利要求1所述的方法,其特征在于,所述控制所述至少两个节点在各自对应的容器中进行MPI任务的训练操作,包括:
从所述至少两个节点中选择一个节点作为主节点,其他节点作为从节点;
控制所述主节点向所述从节点发送执行MPI任务的训练命令,以及控制所述从节点根据接收训练命令执行所述MPI任务的训练。
3.根据权利要求2所述的方法,其特征在于,所述控制所述主节点向所述从节点发送执行MPI任务的训练命令之前,所述方法还包括:
在所述主节点发送所述训练命令前,获取所述从节点在对应的容器中是否成功启动的信息;在每个从节点均启动成功后,触发所述主节点发送训练命令。
4.根据权利要求3所述的方法,其特征在于,所述获取所述从节点是否成功启动的信息,包括:
向预先设置的初始化容器发送从节点的IP地址信息;
在初始化容器按照从节点的IP地址信息对从节点进行初始化操作后,接收初始化容器发送的操作结果;
根据所述操作结果,确定所述从节点的启动状态。
5.根据权利要求2所述的方法,其特征在于,所述控制所述从节点根据接收训练命令执行所述MPI任务的训练,包括:
在所述从节点执行所述MPI任务的训练过程中,检测所述从节点的运行状态,并在所述从节点停止运行时,判断所述从节点是否出现故障,如判断所述从节点出现故障,则重启所述从节点。
6.一种计算机存储介质,其特征在于,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器用以调用所述处理器中的计算机程序以实现如下操作,包括:
获取执行消息传递接口MPI任务的训练操作的至少两个节点;
为所述至少两个节点分配对应的容器;
控制所述至少两个节点在各自对应的容器中进行MPI任务的训练操作。
7.根据权利要求6所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述至少两个节点在各自对应的容器中进行MPI任务的训练操作,包括:
从所述至少两个节点中选择一个节点作为主节点,其他节点作为从节点;
控制所述主节点向所述从节点发送执行MPI任务的训练命令,以及控制所述从节点根据接收训练命令执行所述MPI任务的训练。
8.根据权利要求7所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述主节点向所述从节点发送执行MPI任务的训练命令的操作之前,所述处理器用以调用所述处理器中的计算机程序还实现如下操作,包括:
在所述主节点发送所述训练命令前,获取所述从节点在对应的容器中是否成功启动的信息;在每个从节点均启动成功后,触发所述主节点发送训练命令。
9.根据权利要求8所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现获取所述从节点是否成功启动的信息的操作,包括:
向预先设置的初始化容器发送从节点的IP地址信息;
在初始化容器按照从节点的IP地址信息对从节点进行初始化操作后,接收初始化容器发送的操作结果;
根据所述操作结果,确定所述从节点的启动状态。
10.根据权利要求7所述的计算机存储介质,其特征在于,所述处理器用以调用所述处理器中的计算机程序以实现所述控制所述从节点根据接收训练命令执行所述MPI任务的训练的操作,包括:
在所述从节点执行所述MPI任务的训练过程中,检测所述从节点的运行状态,并在所述从节点停止运行时,判断所述从节点是否出现故障,如判断所述从节点出现故障,则重启所述从节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910739745.2/1.html,转载请声明来源钻瓜专利网。





