[发明专利]使用管理者和工作者神经网络的用于强化学习的动作选择有效
申请号: | 201880013632.8 | 申请日: | 2018-02-19 |
公开(公告)号: | CN110546653B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | S.奥新德罗;K.卡夫库格鲁;A.维兹尼韦茨 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V40/20;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/084;G06N3/092 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了方法、系统、和装置,包括在计算机存储介质上编码的计算机程序,用于被配置为选择要由与环境交互的代理执行的动作的系统。系统包括管理者神经网络子系统和工作者神经网络子系统。管理者子系统被配置为在多个时间步中的每一个时间步处生成时间步的最终目标向量。工作者子系统被配置为在多个时间步中的每一个时间步处,使用由管理者子系统生成的最终目标向量来为预定动作集中的每个动作生成相应的动作得分。 | ||
搜索关键词: | 使用 管理者 工作者 神经网络 用于 强化 学习 动作 选择 | ||
【主权项】:
1.一种用于选择要由代理执行的动作的系统,所述代理通过执行来自预定动作集的动作来与环境交互,所述系统包括:/n管理者神经网络子系统,被配置为在多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到潜在状态空间中当前状态的潜在表示,/n使用目标循环神经网络处理潜在表示,其中所述目标循环神经网络被配置为接收潜在表示并根据所述目标循环神经网络的当前隐藏状态处理潜在表示,以生成时间步的在目标空间中的初始目标向量以及更新目所述目标循环神经网络的内部状态,以及/n池化时间步的初始目标向量和一个或多个先前时间步的初始目标向量以生成时间步的最终目标向量;工作者神经网络子系统,被配置为在所述多个时间步中的每一个时间步处:/n接收环境在时间步处的当前状态的中间表示,/n将所述中间表示映射到预定动作集中的每个动作的嵌入空间中的相应动作嵌入向量,/n将时间步的最终目标向量从目标空间投影到嵌入空间的以生成目标嵌入向量,以及/n通过目标嵌入向量调制每个动作的相应动作嵌入向量以生成预定动作集中的每个动作的相应动作得分;以及/n动作选择子系统,其中所述动作选择子系统被配置为在所述多个时间步中的每一个时间步处:/n接收表征环境在时间步处的当前状态的观察,/n从观察生成中间表示,/n提供中间表示作为管理者神经网络的输入以生成时间步的最终目标向量,/n提供中间表示和最终目标向量作为工作者神经网络的输入以生成动作得分,以及/n使用动作得分从预定的动作集中选择代理响应于观察要执行的动作。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880013632.8/,转载请声明来源钻瓜专利网。