[发明专利]用于训练DNN的缩放学习在审
申请号: | 201980084632.1 | 申请日: | 2019-12-10 |
公开(公告)号: | CN113196304A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | B·劳哈尼·达维什;E·S·钟;D·洛;D·C·伯格 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 dnn 缩放 学习 | ||
公开了用于调节神经网络的超参数以补偿噪声(诸如经由神经网络的一个或多个参数的量化而引入的噪声)的方法和装置。在一些示例中,调节可以包括基于表示神经网络中存在的噪声的至少一个度量来缩放超参数。至少一个度量可以包括针对神经网络的权重(诸如边权重和激活权重)的噪声信号比。在量化神经网络中,用于在反向传播期间计算针对层的梯度更新的学习率超参数可以基于至少一个度量被缩放。在一些示例中,当计算针对其他层的梯度更新时,可以使用相同的已缩放学习率。
背景技术
机器学习(ML)和人工智能(AI)技术可以用于解决很多复杂的计算问题,诸如识别图像和语音、分析和分类信息,以及执行各种分类任务。机器学习是计算机科学领域,其使用统计技术使计算机系统能够从一组训练数据中提取更高级别的特征。具体地,可以通过训练诸如人工神经网络或深度神经网络等模型来提取特征。传统上,深度神经网络已经使用单精度浮点格式(例如,float32)的值被训练和部署。最近的研究表明,较低精度的量化格式(诸如float16或定点)可以用于推理,具有可接受的准确度损失。然而,随着精度的降低,误差(也称为“噪声”)会增加。
发明内容
公开了用于在利用启用量化的系统实现的神经网络的训练期间补偿量化噪声的方法和装置。在一些示例中,一种用于训练神经网络的方法包括获取张量,该张量包括以量化精度格式表示的神经网络的一个或多个参数的值,并且生成表示张量中存在的量化噪声的至少一个度量(例如,至少一个噪声信号度量)。例如,参数可以包括神经网络的边权重和激活权重。然后可以使用至少一个度量来缩放学习率,以在神经网络的一个或多个后续训练期的反向传播阶段使用。
如本文中使用的,“噪声信号”(noise-signal)度量是指被视为“噪声”的信号部分(例如,表示参数值的信号)与信号本身之间的定量关系。例如,参数(例如,神经网络的激活权重或边权重)的值的量化可能会引入噪声,因为该值以较低精度量化格式表示。在这样的示例中,噪声信号度量可以包括构成噪声的量化值的部分与量化之前的参数的值的比率。
受益于本公开的相关领域的普通技术人员将容易理解,在噪声信号度量是比率的示例中,它不限于标量噪声与信号值的比率。相反,它还可以包括分子和分母不是标量值的比率。例如,噪声信号比度量可以表示包含多个噪声值的噪声向量与包含多个信号值(例如,神经网络的单层的参数的值)的信号向量的比率,其中噪声向量中的每个噪声值表示信号向量中被视为“噪声”的对应信号部分,并且信号向量中的每个对应信号值表示信号本身。作为另一示例,噪声信号比度量可以表示包含多个噪声值的噪声矩阵与包含多个信号值(例如,神经网络的多个层的参数的值)的信号矩阵的比率,其中噪声矩阵中的每个噪声值表示信号矩阵中被视为“噪声”的对应信号部分,并且信号矩阵中的每个对应信号值表示信号本身。因此,如果将噪声信号比设想为一个分数,则分子和分母可以是标量值、向量或矩阵。替代地,在不脱离本公开的范围的情况下,噪声信号比的分子和分母可以采用另一种形式。在另一实现中,噪声信号度量具有除比率之外的形式。
在量化神经网络的后续训练期期间,基于至少一个噪声信号度量而计算的缩放因子可以用于缩放用于计算针对神经网络的参数的梯度更新的学习率。受益于本公开的本领域普通技术人员将容易明白,通过基于量化噪声信号比调节神经网络的超参数,诸如学习率,可以减轻在梯度更新的计算期间出现的、由于聚合量化噪声而引起的误差。这种噪声补偿有利地允许在训练神经网络时使用较低精度的计算,同时仍实现与较高精度的计算相似的准确度。一定数量的噪声可以有益于训练神经网络,因为它可以减少神经网络过拟合数据的风险。实际上,对于每个神经网络,在动力学中都可能存在最佳随机波动量。然而,当在具有较低精度量化格式的值的神经网络中执行反向传播时,来自不同层的量化噪声会聚合。由于这种噪声的聚合,在反向传播期间的梯度更新的计算中的误差可能会达到无法接受的水平。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980084632.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于拉开和扭转的装置和方法
- 下一篇:用于改善沉积的毛发调理组合物