[发明专利]一种神经网络分布式训练方法、装置、设备及存储介质在审
申请号: | 202011130809.8 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112288083A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 周宇浩;叶庆;张海伦 | 申请(专利权)人: | 周宇浩 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王婷婷 |
地址: | 610065 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 分布式 训练 方法 装置 设备 存储 介质 | ||
1.一种神经网络分布式训练方法,其特征在于,所述方法包括:
针对集群中的每个节点,建立同步进程以及与所述同步进程并行运行的训练进程;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,N为>0的整数;
在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度;
所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度;
所述节点在所述训练进程中进行第N+1个训练周期的训练时,在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度;
在所述训练进程完成所述第N+1个训练周期的训练后,所述节点在所述同步进程中利用所述第一平均梯度更新第N个训练周期结束时的所述目标神经网络模型的参数。
2.根据所述权利要求1所述的方法,其特征在于,所述方法还包括:
在所述训练进程设置计数器;其中,所述计数器用于记录所述目标神经网络模型在一个周期内的训练次数;
所述节点根据所述同步进程的状态信息,确定所述训练进程的第N个训练周期,包括:
初始化所述目标神经网络模型,确定所述训练进程的第1个训练周期;
取N=n+1,n为>0的整数,执行步骤:在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态;同时,所述节点将所述计数器记录的累计训练次数置为零,确定所述训练进程结束第N-1个训练周期并开始第N个训练周期。
3.根据权利要求2所述的方法,其特征在于,在所述第N个训练周期内,所述节点在所述训练进程中对目标神经网络模型进行训练,得到本地梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在所述计数器记录的累计训练次数为零时,所述节点利用所述训练进程将所述目标神经网络模型的参数克隆到本地,得到克隆模型参数;
在所述计数器记录的累计训练次数不为零时,利用对应所述第m次训练的本地梯度更新所述克隆模型参数,并对所述计数器记录的累计训练次数加一,直至所述同步进程的状态信息被赋值为空闲状态。
4.根据权利要求2所述的方法,其特征在于,所述节点累加多次训练所述目标神经网络模型得到的本地梯度,得到累计梯度,包括:
依次取m从1至M,M为>1的整数,在所述第N个训练周期内对所述目标神经网络模型进行第m次训练,得到对应所述第m次训练的本地梯度;
在m等于1时,将对应所述第m次训练的本地梯度存储至本地,得到对应所述第m次训练的累计梯度;
在m不等于1时,将对应所述第m次训练的本地梯度累加至对应所述第m-1次训练的累计梯度,得到对应所述第m次训练的累计梯度。
5.根据所述权利要求2所述的方法,其特征在于,在所述同步进程的状态信息为空闲状态时,所述节点通过所述训练进程将同步状态赋值给所述同步进程的状态信息,以使所述同步进程进入同步状态之后,所述方法还包括:
在所述同步进程中,所述节点根据所述计数器记录的累计训练次数,获取在所述第N-1个训练周期结束时所述目标神经网络模型的参数,得到待更新的模型参数;
所述节点在所述同步进程中与共同训练所述目标神经网络模型的其他节点同步所述累计梯度,并基于其他节点的累计梯度,计算获得第一平均梯度,包括:
在所述同步进程是第一次进入同步状态的情况下,直接与所述目标神经网络模型的其他节点同步所述累计梯度,计算得到第一平均梯度;
在所述同步进程不是第一次进入同步状态的情况下,获取第二平均梯度;其中,所述第二平均梯度是所述节点同步对应所述第N-1个训练周期获得的累计梯度得到的;
利用所述第二平均梯度更新所述待更新的模型参数;
与所述目标神经网络模型的其他节点同步所述累计梯度,得到第一平均梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于周宇浩,未经周宇浩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011130809.8/1.html,转载请声明来源钻瓜专利网。