[发明专利]基于注意力的仅解码器的序列转换神经网络在审
| 申请号: | 201880075803.X | 申请日: | 2018-10-29 |
| 公开(公告)号: | CN111386537A | 公开(公告)日: | 2020-07-07 |
| 发明(设计)人: | 诺姆·M·沙泽尔;卢卡什·米奇斯瓦夫·凯泽;艾蒂安·波特;穆罕默德·萨利赫;本·大卫·古德里奇;彼得·J·柳;瑞安·赛帕斯 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;任庆威 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 解码器 序列 转换 神经网络 | ||
1.一种从包括多个输入令牌的输入序列生成包括多个输出令牌的输出序列的方法,所述方法包括在多个生成时间步中的每个生成时间步处:
为该生成时间步生成包括所述输入序列的组合序列,所述输入序列后面是截至该生成时间步已经生成的输出令牌;
使用自注意力解码器神经网络来处理所述组合序列,其中,所述自注意力解码器神经网络包括多个神经网络层,所述多个神经网络层包括多个掩码的自注意力神经网络层,并且其中,所述自注意力解码器神经网络被配置成通过所述多个神经网络层来处理所述组合序列以生成时间步输出,所述时间步输出定义关于可能输出令牌集合的得分分布;以及
使用所述时间步输出从所述可能输出令牌集合中选择输出令牌作为所述输出序列中的下一个输出令牌。
2.根据权利要求1所述的方法,其中,所述掩码的自注意力神经网络层被掩码,使得所述时间步输出仅取决于所述输入序列和截至该生成时间步已经生成的输出令牌,并且不取决于在所述输出序列中已经生成的最后一个令牌之后的任何输出令牌。
3.根据权利要求1或2中的任意一项所述的方法,其中,所述输入序列和截至该生成时间步已经生成的输出令牌由所述组合序列中的预定特殊分隔符令牌分隔。
4.根据权利要求1-3中的任意一项所述的方法,其中,所述多个掩码的自注意力神经网络层是掩码的多头注意力层。
5.根据权利要求1-4中的任意一项所述的方法,其中,所述多个掩码的自注意力神经网络层包括至少一个局部注意力层,并且其中,每个局部注意力层包括局部注意力子层,所述局部注意力子层被配置成:
接收包括多个层输入的层输入序列;
将所述层输入序列划分成多个子序列;
针对子序列,通过对所述子序列中的所述层输入执行自注意力来生成子序列输出;并且
合并所述子序列输出以生成层输出序列。
6.根据权利要求1-5中的任意一项所述的方法,其中,所述多个掩码的自注意力神经网络层包括至少一个存储器压缩注意力层,并且其中,每个存储器压缩注意力层包括存储器压缩子层,所述存储器压缩子层被配置成:
获得包括多个键、值和查询的注意力输入;
对所述键应用跨步卷积以生成减少的键集合;
对所述值应用跨步卷积以生成减少的值集合;
通过使用所述减少的键集合、所述减少的值集合和所述多个查询执行自注意力来生成层输出序列。
7.根据权利要求6所述的方法,其中,获得所述注意力输入包括:
接收包括多个层输入的层输入序列;和
使用相应的投影矩阵来将所述层输入序列投影到所述键、所述值和所述查询。
8.根据权利要求1至7中的任意一项所述的方法,其中,所述输入序列包括来自多个文档的文本,并且其中,所述输出序列是概括所述多个文档的文本。
9.根据权利要求8所述的方法,其中,所述输入序列还包括指定所述多个文档所涉及的主题的文本。
10.根据权利要求1至9中的任意一项所述的方法,还包括:
确定该时间步的所选择的输出是预定的序列结束令牌;和
作为响应,提供截至该生成时间步已经生成的所述输出令牌作为所述输入序列的最终输出序列。
11.根据权利要求1至10中的任意一项所述的方法,其中,所述多个神经网络层包括一个或多个专家混合层。
12.一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任意一项所述的方法的操作。
13.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任意一项所述的方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880075803.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:维修场地管理方法、服务器和计算机可读存储介质
- 下一篇:工程机械





