[发明专利]基于多机集群的神经网络训练方法及系统有效
申请号: | 201711098289.5 | 申请日: | 2017-11-09 |
公开(公告)号: | CN108875930B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 彭超;贾开;俞刚 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;卜璐璐 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 神经网络 训练 方法 系统 | ||
本发明提供了一种基于多机集群的神经网络训练系统和方法以及该系统和方法所采用的计算设备和服务器,所述方法包括:采用网状集群连接的连接方式来连接用于进行神经网络训练的多个训练机器,所述网络集群连接为:每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接。根据本发明实施例的基于多机集群的神经网络训练系统和方法以及该系统和方法所采用的计算设备和服务器基于多个训练机器进行神经网络的训练,且基于网状集群连接方式连接多个训练机器,能够加快不同训练机器之间的数据通信速度,提高神经网络训练的速度。
技术领域
本发明涉及神经网络训练技术领域,更具体地涉及一种基于多机集群的神经网络训练系统和方法以及该系统和方法所采用的计算设备和服务器。
背景技术
随着神经网络模型自身的加宽和加深,以及各种行业数据的指数级爆炸增长,训练一个可用的神经网络所需的计算力也呈现指数级的增长。特别是通用物体检测模型,由于这种模型通常需要超大图片的输入,导致了单机训练效率特别低下,一个10万大小的数据集需要7天乃至半月的时间训练。这种超长的时间开销导致了模型迭代效率的日益低下。
发明内容
考虑到上述问题而提出了本发明。根据本发明一方面,提供一种基于多机集群的神经网络训练方法,所述方法包括:采用网状集群连接的连接方式来连接用于进行神经网络训练的多个训练机器,所述网络集群连接为:每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接。
在本发明的一个实施例中,在所述方法中,每个所述训练机器配置为:存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
在本发明的一个实施例中,所述方法还包括:采用第一服务器和第二服务器来提供训练数据,其中:所述第一服务器存储训练所需的所有原始数据;所述第二服务器从所述第一服务器中读取所述原始数据,并根据任务对所述原始数据进行预处理以产生训练数据;并且每个所述训练机器从所述第二服务器获取所述训练数据。
在本发明的一个实施例中,在所述方法中,每个所述训练机器通过启动第一进程和第二进程来从所述第二服务器获取所述训练数据,其中:所述第一进程读取所述第二服务器传输过来的数据;所述第二进程将所述第一进程缓存完毕的数据从内存拷贝到显存中。
在本发明的一个实施例中,所述训练方法采用的梯度下降策略包括:将第一学习率作为训练过程中的稳定学习率,所述第一学习率表示为L1,其中L1=L*N,其中L为采用一个所述训练机器时的学习率,N为所述训练机器的数量;以及将第二学习率作为训练过程中的启动学习率,所述第二学习率表示为L2,其中L2=L*sqrt(N),sqrt(N)表示N的平方根。
根据本发明另一方面,还提供了一种基于多机集群的神经网络训练系统,所述系统包括用于进行神经网络训练的多个训练机器,每个所述训练机器与所述多个训练机器中的任何其他训练机器均连接。
在本发明的一个实施例中,所述系统的每个所述训练机器配置为:存储自己的参数并记录参数地址列表,所述参数地址列表记录不同参数的保存地址;在参数同步时刻,根据所述参数地址列表向所述其他训练机器发送对应参数的梯度并基于所述其他训练机器传来其各自的参数梯度进行参数更新;以及向所述其他训练机器广播经更新后的参数,以由所述其他训练机器基于所述经更新的参数更新该参数在各自本机的拷贝。
在本发明的一个实施例中,所述系统还包括第一服务器和第二服务器,其中:所述第一服务器存储训练所需的所有原始数据;所述第二服务器从所述第一服务器中读取所述原始数据,并根据任务对所述原始数据进行预处理以产生训练数据;并且每个所述训练机器从所述第二服务器获取所述训练数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711098289.5/2.html,转载请声明来源钻瓜专利网。