[发明专利]一种分布式训练方法、装置、设备及系统有效
| 申请号: | 201810717551.8 | 申请日: | 2018-07-03 |
| 公开(公告)号: | CN110738322B | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 郑星 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 张聪聪;马敬 |
| 地址: | 310051 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 训练 方法 装置 设备 系统 | ||
本申请实施例提供了一种分布式训练方法、装置、设备及系统,方法包括:如果在节点执行训练任务的过程中,能够参与该训练任务的可用节点的数量发生变化,则根据变化后的可用节点的数量,对训练参数进行调整,并将调整后的训练参数发送至每台可用节点,每台可用节点根据调整后的训练参数继续执行该训练任务。可见,应用本方案,如果多台节点执行同一个训练任务的过程中,一台节点出现故障,则可用节点数量减少,根据减少后的可用节点数量,对训练参数进行调整,每台可用节点根据调整后的训练参数继续执行该训练任务,不会导致训练任务失败。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种分布式训练方法、装置、设备及系统。
背景技术
在实现人工智能的过程中,通常需要利用机器学习算法、或者深度学习算法等各种学习算法,这些算法通过模拟人脑的学习行为,从数据中学习到相关知识以用于后续预测。
这些算法通常利用大量数据进行训练,为了提高训练速度,目前一般采用分布式训练的方案,也就是使用多台节点同时执行一个训练任务。但是这种分布式训练的方案中,如果多台节点执行同一个训练任务的过程中,一台节点出现故障,则该训练任务失败。
发明内容
本申请实施例的目的在于提供一种分布式训练方法、装置、设备及系统,以解决上述技术问题。
为达到上述目的,本申请实施例提供了一种分布式训练方法,包括:
在节点执行训练任务的过程中,若可用节点的数量发生变化,则根据变化后的可用节点的数量,对训练参数进行调整;其中,所述可用节点为:可参与执行所述训练任务的节点;所述训练参数为:节点执行训练任务的参数;
将调整后的训练参数发送至每台可用节点,以使每台可用节点根据所述调整后的训练参数继续执行所述训练任务。
可选的,所述训练参数包括:批处理数据量;所述根据变化后的可用节点的数量,对训练参数进行调整,可以包括:
若可用节点的数量增加,则将批处理数据量调大;
若可用节点的数量减少,则将批处理数据量调小。
可选的,所述若可用节点的数量增加,则将批处理数据量调大,可以包括:
若可用节点的数量增加,则计算预设单台节点单次处理量与增加后的可用节点的数量的乘积,作为第一乘积;将批处理数据量调整为所述第一乘积;
所述若可用节点的数量减少,则将批处理数据量调小,包括:
若可用节点的数量减少,则计算预设单台节点单次处理量与增加后的可用节点的数量的乘积,作为第二乘积;将批处理数据量调整为所述第二乘积。
可选的,所述训练参数包括:学习率;所述根据变化后的可用节点的数量,对训练参数进行调整,可以包括:
若可用节点的数量增加,则将学习率调大;
若可用节点的数量减少,则将学习率调小。
可选的,所述训练参数还包括:学习率;所述根据变化后的可用节点的数量,对训练参数进行调整,还可以包括:
根据所述批处理数据量的调整幅度,对学习率进行调整。
可选的,所述训练参数包括:最大迭代次数;所述根据变化后的可用节点的数量,对训练参数进行调整,包括:
若可用节点的数量增加,则将最大迭代次数调小;
若可用节点的数量减少,则将最大迭代次数调大。
可选的,所述训练参数还包括:最大迭代次数;在所述将批处理数据量调整为所述第一乘积之后,还可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810717551.8/2.html,转载请声明来源钻瓜专利网。





