[发明专利]用重用TRANSFORMER利用注意力中的冗余在审
申请号: | 202211220686.6 | 申请日: | 2022-10-08 |
公开(公告)号: | CN115577796A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 文卡塔·S·博贾纳帕里;安德烈亚斯·法伊特;阿扬·查克拉巴尔蒂;弗雷德里克·利乌;黑曼舒·贾殷;米夏尔·卢卡西克;桑吉夫·库马尔;张潆文 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重用 transformer 利用 注意力 中的 冗余 | ||
1.一种用于以改进的计算效率执行注意力的计算系统,所述计算系统包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同地存储:
机器学习模型,所述机器学习模型被配置成对模型输入执行注意力操作以生成模型输出,其中,所述机器学习模型包括多个注意力层,并且其中,每个注意力层包括多个注意力头;以及
指令,所述指令当由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:
获得所述模型输入;以及
用所述机器学习模型来处理所述模型输入以生成所述模型输出,其中,用所述机器学习模型来处理所述模型输入包括,对于所述多个注意力层中的一个或多个重用层:
接收层输入;
访问为所述多个注意力层中的先前层计算的一个或多个注意力分数;并且
对于所述重用层的所述多个注意力头中的一个或多个重用头,重用为所述先前层计算的所述一个或多个注意力分数以基于所述层输入来生成所述重用头的相应头输出;以及
基于所述重用层的所述多个注意力头中的所述一个或多个重用头的所述相应头输出来生成层输出。
2.根据权利要求1所述的计算系统,其中,对于所述一个或多个重用层中的至少一个重用层,所述一个或多个重用头包括所述重用层的所有所述多个注意力头。
3.根据权利要求1所述的计算系统,其中,对于所述一个或多个重用层中的至少一个重用层,所述一个或多个重用头包括所述重用层的所述多个注意力头的真子集。
4.根据权利要求3所述的计算系统,其中:
所述操作进一步包括,对于所述重用层的所述多个注意力头中的一个或多个非重用头中的每个非重用头:
基于所述层输入来计算一个或多个新的注意力分数;以及
使用所述一个或多个新的注意力分数来生成所述非重用头的相应头输出;
其中,生成所述层输出包括级联所述一个或多个重用头的相应头输出和所述一个或多个非重用头的相应头输出。
5.根据权利要求4所述的计算系统,其中:
访问为所述先前层计算的所述一个或多个注意力分数包括访问包含为所述先前层计算的所述一个或多个注意力分数的向前推进张量;以及
所述操作进一步包括将所述一个或多个新的注意力分数插入到所述向前推进张量中。
6.根据权利要求1所述的计算系统,其中,所述一个或多个重用层包括所述机器学习模型的除初始层之外的所有所述多个注意力层。
7.根据权利要求1所述的计算系统,其中,所述一个或多个重用层包括所述机器学习模型的所述多个注意力层的真子集。
8.根据权利要求1所述的计算系统,其中,重用为所述先前层计算的所述一个或多个注意力分数以基于所述层输入来生成所述相应头输出包括在所述重用头中直接使用为所述先前层计算的所述一个或多个注意力分数,其中,直接使用所述一个或多个注意力分数包括将所述一个或多个注意力分数乘以基于所述层输入的值矩阵。
9.根据权利要求1所述的计算系统,其中,重用为所述先前层计算的所述一个或多个注意力分数以基于所述层输入来生成所述相应头输出包括在所述重用头中使用为两个或更多个先前层计算的所述一个或多个注意力分数的加权组合。
10.根据权利要求9所述的计算系统,其中,所述加权组合是使用一个或多个学习的加权参数来生成的。
11.根据权利要求1所述的计算系统,其中,许多所述重用层和每个重用层中的许多所述重用头包括用户定义的超参数。
12.根据权利要求1所述的计算系统,其中,每个重用层中的所述重用头的数目是恒定的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211220686.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于土地管理的界桩定位仪
- 下一篇:模块化喷雾干燥系统
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法