[发明专利]神经网络训练方法、电子设备及计算机可读存储介质在审
| 申请号: | 202111101516.1 | 申请日: | 2021-09-18 |
| 公开(公告)号: | CN114021693A | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 黄俊强 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100096 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 训练 方法 电子设备 计算机 可读 存储 介质 | ||
1.一种神经网络训练方法,其特征在于,应用于图形处理器GPU,所述GPU用于对结构部分相同或完全相同的第一卷积神经网络M1以及第二卷积神经网络M2进行训练,所述方法包括:
获取第一样本子集中每个样本的第一特征向量;所述每个样本的第一特征向量通过所述M2对该样本进行特征提取,并对特征提取结果进行批归一化得到;
获取第二样本子集中的部分样本,以及获取所述部分样本中的每个样本的第二特征向量;所述每个样本的第二特征向量通过所述M1对该样本进行特征提取,并对特征提取结果进行全局同步批归一化得到;
根据所述第一特征向量以及所述第二特征向量,更新所述M1的参数以及所述M2的参数;
其中,所述第一样本子集与所述第二样本子集由同一个原始样本集通过不同的数据增广方法得到。
2.根据权利要求1所述的方法,其特征在于,所述方法应用于存在多个GPU的应用场景,在每个所述GPU上初始化所述M1以及所述M2,各个所述GPU并行地根据保存在本设备上的第一样本子集以及第二样本子集对初始化在本设备上的M1的参数以及M2的参数进行更新。
3.根据权利要求1或2所述的方法,其特征在于,所述获取第二样本子集中的部分样本,以及获取所述部分样本中的每个样本的第二特征向量,包括:
分批次地从所述第二样本子集中获取部分样本,以及获取本批次得到的部分样本中的每个样本的第二特征向量;
相应的,所述根据所述第一特征向量以及所述第二特征向量,更新所述M1的参数以及所述M2的参数,包括:
在每个批次,根据所述第一特征向量以及本批次的第二特征向量,更新所述M1当前的参数以及所述M2当前的参数。
4.根据权利要求3所述的方法,其特征在于,所述在每个批次,根据所述第一特征向量以及本批次的第二特征向量,更新所述M1当前的参数以及所述M2当前的参数,包括:
在每个批次,从所述第一样本子集的所有第一特征向量中确定出目标特征向量,其中,所述第一样本子集中用于提取出所述目标特征向量的样本与所述第二样本子集中用于提取出本批次的第二特征向量的样本,由所述原始样本集中的同一个样本通过不同的数据增广方法得到;
在每个批次,根据损失函数计算所述目标特征向量与本批次的第二特征向量的损失值;
在每个批次,根据所述损失函数以及本批次所得到的损失值更新所述M1当前的参数以及所述M2当前的参数;
其中,所述M1当前的参数通过梯度反向传播进行更新,所述梯度为将所述损失值带入所述损失函数的偏导数后所得到的结果;所述M2当前的参数通过所述M1更新后的参数的滑动平均进行更新。
5.根据权利要求4所述的方法,其特征在于,更新所述M2当前的参数的过程为:
计算所述M2当前的参数与第一预设参数的第一乘积值;
计算所述M1更新后的参数与第二预设参数的第二乘积值;
计算所述第一乘积值与所述第二乘积值的和值,所述和值为所述M2更新后的参数。
6.根据权利要求5所述的方法,其特征在于,所述M2当前的参数通过公式A2’=m·A2+(1-m)·A1更新;
其中,m为所述第一预设参数,A2’为所述M2更新后的参数,A2为所述M2当前的参数,A1为所述M1更新后的参数,(1-m)为所述第二预设参数。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述对特征提取结果进行全局同步批归一化,包括:
通过本设备上的M1对本设备上的所述部分样本进行特征提取,得到本设备的特征提取结果;
计算所述本设备的特征提取结果的实际均值以及所述本设备的特征提取结果的实际标准差;
获取其他GPU的特征提取结果的实际均值,并根据所述其他GPU的特征提取结果的实际均值以及所述本设备的特征提取结果的实际均值,计算全局均值;
获取其他GPU的特征提取结果的实际标准差,并根据所述其他GPU的特征提取结果的实际标准差以及所述本设备的特征提取结果的实际标准差,计算全局标准差;
根据所述全局均值以及所述全局标准差,对本设备的特征提取结果进行批归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111101516.1/1.html,转载请声明来源钻瓜专利网。





