[发明专利]使用对规划嵌入的注意操作生成在环境中实现目标的隐式规划在审
| 申请号: | 202180013484.1 | 申请日: | 2021-02-08 | 
| 公开(公告)号: | CN115066686A | 公开(公告)日: | 2022-09-16 | 
| 发明(设计)人: | S.里特;R.福克纳;D.N.雷波索 | 申请(专利权)人: | 渊慧科技有限公司 | 
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 | 
| 地址: | 英国*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 使用 规划 嵌入 注意 操作 生成 环境 实现 目标 | ||
一种方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于选择要由与环境交互的代理执行以实现目标的动作。在一个方面,一种方法包括:生成与外部存储器中的多个经验元组中的每一个对应的相应规划嵌入,其中每个经验元组表征在前一时间步代理与环境的交互;使用规划神经网络处理规划嵌入,以生成实现目标的隐式规划;以及使用隐式规划选择代理要在时间步执行的动作。
背景技术
本说明书涉及使用机器学习模型处理数据。
机器学习模型接收输入并基于接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并根据接收的输入和模型的参数值生成输出。
一些机器学习模型是深度模型,它们采用多层模型来为接收的输入生成输出。例如,深度神经网络是深度机器学习模型,它包括一个输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收的输入以生成输出。
发明内容
本说明书描述了一种动作选择系统,被实现为在一个或多个位置的一个或多个计算机上的计算机程序,用于控制与环境交互的代理以实现目标。
在整个说明书中,实体的“嵌入”(例如,对环境的观察)可以指作为数值的有序集合的实体的表示,例如,数值的向量或矩阵。可以生成实体的嵌入,例如,作为处理表征实体的数据的神经网络的输出。
根据第一方面,提供了一种由一个或多个数据处理装置执行的方法,用于选择要由与环境交互的代理执行以实现目标的动作。
方法包括生成与外部存储器中的多个经验元组中的每一个对应——例如包括其表示——的相应规划嵌入,其中每个经验元组表征在相应前一时间步代理与环境的交互。可选地,规划嵌入也可以包括目标的表示,例如嵌入。
因此,在实现方式中,规划嵌入表征代理与环境的先前交互,以及可选地,表征目标。在实现方式中,规划嵌入不包括表征当前环境状态的当前观察的表示。
方法可以包括使用规划神经网络处理规划嵌入以生成用于实现目标的隐式规划。隐式规划因此可以包括关于代理与环境的先前交互以及可选地目标的嵌入编码信息。如后面所述,它也可能取决于当前观察的表示。它可以隐式地表征能够由代理执行以完成目标的动作。规划神经网络可以是被配置为处理规划嵌入——可选地,目标嵌入,并且在实现方式中,当前观察的表示——的任何神经网络。然而,在实现方式中,规划神经网络可以包括一个或多个自注意层,如后面所述。
方法还可以包括使用隐式规划来选择代理要在时间步执行的动作。
在实现方式中,方法使用对规划嵌入的注意迭代地更新规划嵌入,例如使用注意子网络。同一注意——例如自注意——函数的多次迭代可以被应用于规划嵌入。可以基于规划嵌入和当前观察来生成隐式规划。生成隐式规划可以包括将当前嵌入的表示附加到每个规划嵌入并使用一个或多个神经网络层(例如自注意层,例如使用注意子网络)来处理组合嵌入。在实现方式中,这些神经网络层不处理当前观察的表示。
广义地,使用注意涉及应用注意机制,例如自注意机制,其将规划嵌入相互关联以确定隐式规划。注意机制的细节各不相同,但是通常,注意机制可以将学习的查询向量和学习的键值向量对集合映射到输出。输出可以被计算为值的加权和,权重取决于查询和键的相似性。在这种类型的自注意机制中,注意机制的输入可以是规划嵌入集合,且输出可以是相同规划嵌入集合的变换版本。仅作为一个示例,arXiv:1706.03762中描述了一种点积注意机制(它也描述了多头注意的示例)。在实现方式中,使用(自)注意有助于确定过去状态之间的关系。
在一些实现方式中,使用对规划嵌入的注意涉及使用残差神经网络块(即,包括残差或跳过连接的一个)来处理规划嵌入。残差神经网络块可以被配置为向规划嵌入应用一系列操作,包括层归一化操作(参见例如arXiv:1607:06450)、注意操作和线性投影操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180013484.1/2.html,转载请声明来源钻瓜专利网。





