[发明专利]神经网络训练方法、电子设备及计算机可读存储介质在审
| 申请号: | 202111101516.1 | 申请日: | 2021-09-18 |
| 公开(公告)号: | CN114021693A | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 黄俊强 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100096 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 训练 方法 电子设备 计算机 可读 存储 介质 | ||
本发明涉及一种神经网络训练方法、电子设备及计算机可读存储介质,该方法包括:获取第一样本子集中每个样本的第一特征向量;每个所述样本的第一特征向量通过所述M2对该样本进行特征提取,并对特征提取结果进行批归一化得到;获取第二样本子集中的部分样本,以及获取所述部分样本中的每个样本的第二特征向量;每个所述样本的第二特征向量通过所述M1对该样本进行特征提取,并对特征提取结果进行全局同步批归一化得到;根据所述第一特征向量以及所述第二特征向量,更新所述M1的参数以及所述M2的参数。通过该方法,有利于加快训练速度。
技术领域
本申请属于深度学习领域,具体涉及一种神经网络训练方法、电子设备及计算机可读存储介质。
背景技术
在结合多个图形处理器(Graphics Processing Unit,GPU)来并行训练卷积神经网络前向传播过程中,由于位于不同GPU上的样本之间的分布可能会有显著差异,可能会导致计算损失函数并按照损失函数反向传播梯度时,卷积神经网络的参数学习发生了剧烈扰动而使得训练不收敛,因此,有针对各个GPU上的样本使用批归一化(BatchNormalization,BN)的需求。
其中,批归一化的具体做法是:在单个GPU上,统计所有样本的特征向量,计算该GPU上所有样本的特征向量的实际均值以及实际标准差;然后用该GPU上的每个样本的特征向量减去该GPU上的实际均值并除以实际标准差。
此外,还存在一种全局同步批归一化(SYNC BN),其具体做法是:在单个GPU上,统计所有样本的特征向量,计算该GPU上所有样本的特征向量的实际均值以及实际标准差,然后计算所有GPU的实际均值的平均均值以及所有GPU的实际标准差的平均标准差,并用平均均值替换各个GPU的实际均值以及用平均标准差替换各个GPU的实际标准差。后续,用该GPU上的每个样本的特征向量减去该GPU上的平均均值并除以平均标准差。
在现有技术中,针对待训练的卷积神经网络M1,会初始化与其存在相同结构的卷积神经网络M2。M1通过梯度反向传播,M2使用M1的参数的滑动平均进行更新。
其中,为了保证后续的训练效果,M1与M2均需要采用全局同步批归一化,让每个GPU上的样本均值以及样本标准差相同。但是由于全局同步批归一化对设备的计算能力存在较高的要求,因此,使用全局同步批归一化所对应的计算消耗较大,会使得训练过程较为缓慢。
发明内容
有鉴于此,本申请的目的在于提供一种神经网络训练方法、电子设备及计算机可读存储介质,可以在尽可能保证训练效果的基础上,减少训练过程的计算消耗,有利于加快训练速度。
本申请的实施例是这样实现的:
第一方面,本申请实施例提供一种神经网络训练方法,应用于GPU,所述GPU用于对结构部分相同或完全相同的第一卷积神经网络M1以及第二卷积神经网络M2进行训练,所述方法包括:获取第一样本子集中每个样本的第一特征向量;所述每个样本的第一特征向量通过所述M2对该样本进行特征提取,并对特征提取结果进行批归一化得到;获取第二样本子集中的部分样本,以及获取所述部分样本中的每个样本的第二特征向量;所述每个样本的第二特征向量通过所述M1对该样本进行特征提取,并对特征提取结果进行全局同步批归一化得到;根据所述第一特征向量以及所述第二特征向量,更新所述M1的参数以及所述M2的参数;其中,所述第一样本子集与所述第二样本子集由同一个原始样本集通过不同的数据增广方法得到。
在上述过程中,由于通过M2进行特征提取来得到第一特征向量时使用的是普通批归一化,通过M1进行特征提取来得到第二特征向量时使用的是全局同步批归一化,且已知普通批归一化对计算资源的消耗量小于全局同步批归一化对计算资源的消耗量,因此,相较于现有技术中M1与M2均采用全局同步批归一化的做法,本申请实施例所提供的训练方式,可以减轻整个训练过程对计算资源的消耗量,有利于加快训练速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111101516.1/2.html,转载请声明来源钻瓜专利网。





