[发明专利]用重用TRANSFORMER利用注意力中的冗余在审
申请号: | 202211220686.6 | 申请日: | 2022-10-08 |
公开(公告)号: | CN115577796A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 文卡塔·S·博贾纳帕里;安德烈亚斯·法伊特;阿扬·查克拉巴尔蒂;弗雷德里克·利乌;黑曼舒·贾殷;米夏尔·卢卡西克;桑吉夫·库马尔;张潆文 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 重用 transformer 利用 注意力 中的 冗余 | ||
本公开涉及用重用TRANSFORMER利用注意力中的冗余。提供的是通过在Transformer或其他基于注意力的神经网络或机器学习模型的层和/或头之间重用许多注意力分数来改进该模型的计算效率的系统和方法。为了在实现可比较的或甚至优良的结果的同时降低基于自注意力的模型的计算成本,本公开的示例方面提出在一个或多个后续层中重用在一个层中计算的注意力分数的新颖架构。
相关申请
本申请要求2021年10月5日提交的美国临时专利申请号63/252,489的优先权。美国临时专利申请号63/252,489通过引用整体并入本文。
技术领域
本公开通常涉及机器学习。更特别地,本公开涉及通过在Transformer或其他基于注意力的神经网络或机器学习模型的层和/或头之间重用许多注意力分数来改进该模型的计算效率的系统和方法。
背景技术
最近,诸如通常称为“Transformer”的那些基于注意力的模型已经跨许多任务示出了高质量结果。这些高质量结果主要由模型实现或者是由模型执行“自注意力”操作(还称为“注意力机制”)的功能。
在一些示例自注意力操作中,能够相对于输入嵌入的序列内的所有其他嵌入为该序列内的每个嵌入计算注意力分数。能够在任何给定模型内执行此过程或操作相当多的次数。例如,典型的Transformer模型将包含许多注意力层,其中每个注意力层包括许多注意力头,其中每个注意力头对该层的相应输入执行如上所述的自注意力操作。
注意力操作是相对计算上成本高的(例如,需要大量处理器使用和/或存储器空间)。此外,众所周知,注意力计算的成本随输入序列长度呈二次增长并且这对训练用于长序列长度任务的模型提出挑战。
更特别地,Transformer是跨自然语言处理和计算机视觉中的任务实现现有技术水平性能的序列到序列模型。Transformer用其计算输入序列的上下文嵌入的注意力层实现高性能。在一些示例中,注意力层能够基于输入词元(tokens)的成对点积来计算注意力分数。通常在层中存在对输入的不同投影操作的多个此类自注意力头。
自注意力层已经成为对注意力分数的可解释性和注意力在语言理解中的作用进行分析的许多最近研究的主题。许多这种分析是定性的或者集中于注意力层的特定自然语言能力,因此,未能补救与注意力层相关联的计算挑战。
发明内容
本公开的实施例的各方面和优点将部分地在以下描述中阐述,或者能够从说明书中学习,或者能够通过对实施例的实践来学习。
本公开的一个示例方面涉及一种用于以改进的计算效率执行注意力的计算系统。该计算系统包括一个或多个处理器和一个或多个非暂时性计算机可读介质,该一个或多个非暂时性计算机可读介质共同地存储:机器学习模型,该机器学习模型被配置成对模型输入执行注意力操作以生成模型输出,其中,该机器学习模型包括多个注意力层,并且其中,每个注意力层包括多个注意力头;以及指令,这些指令当由一个或多个处理器执行时使该计算系统执行操作。这些操作包括获得模型输入。这些操作包括用机器学习模型来处理模型输入以生成模型输出。用机器学习模型来处理模型输入包括,对于多个注意力层中的一个或多个重用层:接收层输入;访问为多个注意力层中的先前层计算的一个或多个注意力分数;以及对于重用层的多个注意力头中的一个或多个重用头,重用为先前层计算的一个或多个注意力分数以基于层输入来生成重用头的相应头输出。这些操作包括基于重用层的多个注意力头中的一个或多个重用头的相应头输出来生成层输出。
在一些实现方式中,对于一个或多个重用层中的至少一个重用层,一个或多个重用头包括重用层的所有多个注意力头。
在一些实现方式中,对于一个或多个重用层中的至少一个重用层,一个或多个重用头包括重用层的多个注意力头的真子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211220686.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于土地管理的界桩定位仪
- 下一篇:模块化喷雾干燥系统
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法