[发明专利]基于多机集群的神经网络训练方法及系统有效
申请号: | 201711098289.5 | 申请日: | 2017-11-09 |
公开(公告)号: | CN108875930B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 彭超;贾开;俞刚 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 神经网络 训练 方法 系统 | ||
1.一种基于多机集群的神经网络训练方法,其特征在于,所述方法包括:采用网状集群连接的连接方式来连接用于进行神经网络训练的多个训练机器,所述网状集群连接为:每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接;
其中,每个所述训练机器配置为:
存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;
在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及
向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:采用第一服务器和第二服务器来提供训练数据,其中:
所述第一服务器存储训练所需的所有原始数据;
所述第二服务器从所述第一服务器中读取所述原始数据,并根据任务对所述原始数据进行预处理以产生训练数据;并且
每个所述训练机器从所述第二服务器获取所述训练数据。
3.根据权利要求2所述的方法,其特征在于,每个所述训练机器通过启动第一进程和第二进程来从所述第二服务器获取所述训练数据,其中:
所述第一进程读取所述第二服务器传输过来的数据;
所述第二进程将所述第一进程缓存完毕的数据从内存拷贝到显存中。
4.根据权利要求1所述的方法,其特征在于,所述训练方法采用的梯度下降策略包括:
将第一学习率作为训练过程中的稳定学习率,所述第一学习率表示为L1,其中L1=L*N,其中L为采用一个所述训练机器时的学习率,N为所述训练机器的数量;以及
将第二学习率作为训练过程中的启动学习率,所述第二学习率表示为L2,其中L2=L*sqrt(N),sqrt(N)表示N的平方根。
5.一种用于实施权利要求1-4中的任一项所述方法的基于多机集群的神经网络训练系统,其特征在于,所述系统包括用于进行神经网络训练的多个训练机器,每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接;
其中,每个所述训练机器配置为:
存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;
在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及
向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
6.一种计算设备,其特征在于,所述计算设备实现为权利要求1-4中的任一项所述方法的所述训练机器,所述计算设备配置为:
存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;
在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及
向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
7.一种服务器,其特征在于,所述服务器配置为存储用于基于多机集群的神经网络训练所需的原始数据,所述原始数据由另一服务器读取并根据任务进行预处理以生成训练数据,所述基于多机集群的神经网络训练是通过多个训练机器实施的,所述多个训练机器之间的连接方式为网状集群连接,所述网状集群连接为:每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接;
其中,每个所述训练机器配置为:
存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;
在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及
向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
8.一种服务器,其特征在于,所述服务器配置为从另一服务器读取用于基于多机集群的神经网络训练所需的原始数据,并根据任务对所述原始数据进行预处理以生成训练数据,所述基于多机集群的神经网络训练是通过多个训练机器实施的,所述多个训练机器之间的连接方式为网状集群连接,所述网状集群连接为:每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接;
其中,每个所述训练机器配置为:
存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;
在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及
向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711098289.5/1.html,转载请声明来源钻瓜专利网。