[发明专利]分布式训练方法、梯度通信方法、装置及电子设备有效
申请号: | 202211426391.4 | 申请日: | 2022-11-15 |
公开(公告)号: | CN115906982B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 沈亮;于佃海 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F18/214;G06N3/063;H04L12/18 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 训练 方法 梯度 通信 装置 电子设备 | ||
本公开公开了一种分布式训练方法、梯度通信方法、装置及电子设备,涉及人工智能领域,尤其涉及深度学习领域。具体实现方案为:利用第一通信方式,与其他计算节点交换各自的有效参数,其中,有效参数为计算节点对应稀疏梯度中有效梯度的行数,有效梯度为计算节点对应稀疏梯度中有效部分的梯度数据;基于所有计算节点的有效参数,确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式,其中,有效行参数是表示稀疏梯度与有效梯度映射关系的数组;利用第二通信方式,与其他计算节点交换各自的有效行参数和有效梯度。本公开实施例节约了通信资源,提升了深度神经网络分布式训练的通信性能。
技术领域
本公开涉及人工智能领域,尤其涉及深度学习技术领域。
背景技术
随着深度神经网络(deep neural networks,DNNs)的规模及训练数据集的日趋变大,在DNNs中引入了分布式训练框架,利用多个计算节点进行分布式训练,以减少深度神经网络的训练时间。
在分布式训练框架中,每个计算节点具有相同的模型副本,然后每次迭代读取数据集中不同批次的数据来训练本地的模型参数,并在每次更新模型参数之前,所有计算节点都需要进行通信,以实现不同计算节点之间的梯度同步。但是,当计算节点的梯度为稀疏梯度时,稀疏梯度中只有部分梯度数据为有效值,其余数据均为无效值,此时若依然按照稠密梯度的通信方式传输稀疏梯度,则会传输稀疏梯度中包括无效值的所有数据,从而会产生大量的无用通信,消耗了大量的通信资源,进而影响深度神经网络分布式训练的通信性能。
发明内容
本公开提供了一种用于深度神经网络的分布式训练方法、梯度通信方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种梯度通信方法,应用于深度神经网络的分布式训练框架中,所述分布式训练框架包括多个计算节点,所述方法由每个计算节点执行,所述方法包括:利用第一通信方式,与其他计算节点交换各自的有效参数,其中,所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数,所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据;基于所有计算节点的有效参数,确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式,其中,所述有效行参数是表示所述稀疏梯度与所述有效梯度映射关系的数组;利用所述第二通信方式,与其他计算节点交换各自的有效行参数和有效梯度。
根据本公开的另一方面,提供了一种分布式训练方法,应用于深度神经网络的分布式训练框架中,所述分布式训练框架包括多个计算节点,所述方法由每个计算节点执行,所述方法包括:利用第一通信方式,与其他计算节点交换各自的有效参数,其中,所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数,所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据;基于所有计算节点的有效参数,确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式,其中,所述有效行参数是表示所述稀疏梯度与所述有效梯度映射关系的数组;利用所述第二通信方式,与其他计算节点交换各自的有效行参数和有效梯度,得到所有计算节点的有效行参数和汇聚后的有效梯度;基于所有计算节点的有效行参数和所述汇聚后的有效梯度,确定目标稀疏梯度;基于所述目标稀疏梯度对所述深度神经网络的网络参数进行更新。
根据本公开的另一方面,提供了一种分布式训练装置,包括:第一通信模块,用于利用第一通信方式,与其他计算节点交换各自的有效参数,其中,所述有效参数为所述计算节点对应稀疏梯度中有效梯度的行数,所述有效梯度为所述计算节点对应稀疏梯度中有效部分的梯度数据;第一确定模块,用于基于所有计算节点的有效参数,确定与其他计算节点交换各自的有效行参数和有效梯度的第二通信方式,其中,所述有效行参数是表示所述稀疏梯度与所述有效梯度映射关系的数组;第二通信模块,用于利用所述第二通信方式,与其他计算节点交换各自的有效行参数和有效梯度,得到所有计算节点的有效行参数和汇聚后的有效梯度;第二确定模块,用于基于所有计算节点的有效行参数和所述汇聚后的有效梯度,确定目标稀疏梯度;参数更新模块,用于基于所述目标稀疏梯度对所述深度神经网络的网络参数进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211426391.4/2.html,转载请声明来源钻瓜专利网。