[发明专利]受存储器限制的神经网络训练在审
申请号: | 202110342087.0 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113469354A | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | S·森古普塔;R·戴尔蒙特;R·R·黄;V·维韦克拉亚 | 申请(专利权)人: | 亚马逊技术股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱慰民;张鑫 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储器 限制 神经网络 训练 | ||
1.一种神经网络训练方法,所述神经网络至少包括第一层和第二层,所述方法包括:
基于对所述第一层的输入数据和所述第一层的第一权重,对所述第一层执行第一正向传播操作以生成第一中间输出;
基于所述第一中间输出和所述第二层的第二权重,对所述第二层执行第二正向传播操作以生成第二中间输出,其中由于存储器没有足够的容量将所述第一中间输出和所述第二中间输出存储在一起,因此在所述第二正向传播操作完成之后,所述第二中间输出而不是所述第一中间输出被存储在所述存储器中;
从所述存储器中获得所述第二中间输出;
基于从所述存储器中获得的所述第二中间输出并基于第二参考中间输出,执行损失梯度操作以生成第一数据梯度;
基于所述输入数据,重复所述第一正向传播操作以重新生成所述第一中间输出;
基于所述重新生成的第一中间输出和所述第一数据梯度,对所述第二层执行第一反向传播操作,以生成所述第二层的第二数据梯度和第一权重梯度;
基于所述第一权重梯度,更新所述第二权重;
基于所述输入数据和所述第二数据梯度,对所述第一层执行第二反向传播操作,以生成所述第一层的第二权重梯度;以及
基于所述第二权重梯度,更新所述第一权重。
2.根据权利要求1所述的方法,进一步包括:在所述第二正向传播操作期间,用所述存储器中的所述第二中间输出覆盖所述第一中间输出。
3.根据权利要求1所述的方法,其中从所述神经网络的另一层处接收所述输入数据。
4.根据权利要求1所述的方法,进一步包括:在所述第二正向传播操作之后,选择在所述存储器中保留所述第二中间输出而不是所述第一中间输出,
其中所述选择基于以下至少一项:所述第一中间输出的第一大小、所述第二中间输出的第二大小、所述第一正向传播操作的第一计算时间或所述第二正向传播操作的第二计算时间。
5.一种方法,包括:
基于输入数据,对神经网络的第一层执行第一正向传播操作以生成第一中间输出;
基于所述第一中间输出,对所述神经网络的第二层执行第二正向传播操作以生成第二中间输出;
基于所述第二中间输出,执行损失梯度操作以生成第一数据梯度;
重复所述第一正向传播操作以生成所述第一中间输出;
基于来自所述重复的第一正向传播操作的所述第一中间输出和所述第一数据梯度,对所述第二层执行第一反向传播操作,以生成第二数据梯度和第一权重梯度,所述第一权重梯度用于更新所述第二层的权重;以及
基于所述输入数据和所述第二数据梯度,对所述第一层执行第二反向传播操作,以生成用于更新所述第一层的权重的第二权重梯度。
6.根据权利要求5所述的方法,其中在所述损失梯度操作之后和所述第一反向传播操作之前重复所述第一正向传播操作。
7.根据权利要求5所述的方法,进一步包括:
在所述第二正向传播操作完成之后和所述损失梯度操作之前,将所述第二中间输出而不是所述第一中间输出存储在存储器中;以及
从所述存储器中获得所述第二中间输出,作为所述损失梯度操作的输入。
8.根据权利要求7所述的方法,进一步包括:
在所述第一正向传播操作完成之后,将所述第一中间输出存储在所述存储器中;
从所述存储器中获得所述第一中间输出,作为所述第二正向传播操作的输入;以及
在所述第二正向传播操作完成之后和所述损失梯度操作之前,用所述存储器中的所述第二中间输出覆盖所述第一中间输出。
9.根据权利要求7所述的方法,进一步包括:
在所述损失梯度操作之后,用所述存储器中的所述第一中间输出覆盖所述第二中间输出;以及
从所述存储器中获得所述第一中间输出,作为所述第一反向传播操作的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊技术股份有限公司,未经亚马逊技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110342087.0/1.html,转载请声明来源钻瓜专利网。