[发明专利]使用对规划嵌入的注意操作生成在环境中实现目标的隐式规划在审
| 申请号: | 202180013484.1 | 申请日: | 2021-02-08 | 
| 公开(公告)号: | CN115066686A | 公开(公告)日: | 2022-09-16 | 
| 发明(设计)人: | S.里特;R.福克纳;D.N.雷波索 | 申请(专利权)人: | 渊慧科技有限公司 | 
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 | 
| 地址: | 英国*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 使用 规划 嵌入 注意 操作 生成 环境 实现 目标 | ||
1.一种由一个或多个数据处理装置执行的用于选择要由与环境交互的代理执行以实现目标的动作的方法,所述方法包括:
生成与外部存储器中的多个经验元组中的每一个对应的相应规划嵌入,其中每个经验元组表征在相应前一时间步代理与环境的交互;
使用规划神经网络处理规划嵌入,以生成实现目标的隐式规划;以及
使用隐式规划选择代理要在时间步执行的动作。
2.根据权利要求1所述的方法,其中,使用规划神经网络处理规划嵌入以生成用于实现目标的隐式规划包括:
迭代地更新规划嵌入,包括在多个迭代中的每个迭代,使用对规划嵌入的注意来更新每个规划嵌入;以及
使用规划嵌入生成隐式规划。
3.根据权利要求2所述的方法,还包括生成与外部存储器中的多个经验元组中的每一个对应的相应静态嵌入;
其中,迭代地更新规划嵌入还包括,在多个迭代中的每个迭代:
使用对静态嵌入的注意来更新每个规划嵌入。
4.根据权利要求3所述的方法,其中:
生成与外部存储器中的多个经验元组中的每一个对应的相应规划嵌入包括:
仅为外部存储器中的表征在预定数量的最近时间步上代理与环境的交互的经验元组生成相应规划嵌入;并且
生成与外部存储器中的多个经验元组中的每一个对应的相应静态嵌入包括:
为外部存储器中的每个经验元组生成相应静态嵌入。
5.根据权利要求2-4中任一项所述的方法,其中,使用对规划嵌入的注意来更新每个规划嵌入包括:
使用被配置为将一系列操作应用于规划嵌入的残差神经网络块来处理规划嵌入,所述一系列操作包括:(i)层归一化操作,(ii)注意操作和(iii)线性投影操作。
6.根据权利要求5所述的方法,其中,注意操作包括对规划嵌入的多头键-查询-值注意操作。
7.根据权利要求2-6中任一项所述的方法,其中,使用规划嵌入来生成隐式规划包括:
基于:(i)规划嵌入和(ii)表征环境的当前状态的当前观察来生成隐式规划。
8.根据权利要求7所述的方法,其中,基于:(i)规划嵌入和(ii)表征环境的当前状态的当前观察来生成隐式规划包括:
对于每个规划嵌入:
将当前观察的表示附加到规划嵌入以生成组合嵌入;和
通过一个或多个神经网络层处理组合嵌入以生成变换嵌入;以及基于变换的嵌入生成隐式规划。
9.根据权利要求8所述的方法,其中,基于变换的嵌入生成隐式规划包括:
通过对变换的嵌入应用池化操作来生成隐式规划。
10.根据权利要求9所述的方法,其中,池化操作是逐特征的最大池化操作。
11.根据权利要求1-10中任一项所述的方法,其中,使用隐式规划选择代理要在时间步执行的动作包括:
使用动作选择神经网络来处理包括隐式规划的输入,以生成动作选择输出;以及
基于动作选择输出来选择动作。
12.根据权利要求11所述的方法,其中,动作选择输出包括代理能够执行的可能动作集合中的每个动作的相应分数,并且基于动作选择输出来选择动作包括根据动作分数对动作进行采样。
13.根据权利要求11-12中任一项所述的方法,其中,动作选择神经网络和规划神经网络使用强化学习技术被训练,以最大化代理与环境交互而接收的奖励的累积测量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180013484.1/1.html,转载请声明来源钻瓜专利网。





