[发明专利]利用辅助任务的强化学习有效
申请号: | 201780080119.6 | 申请日: | 2017-11-04 |
公开(公告)号: | CN110114783B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | V.姆尼;W.扎内基;M.E.雅德伯格;T.绍尔;D.西尔弗;K.卡乌库奥格卢 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/092 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 辅助 任务 强化 学习 | ||
1.一种用于训练强化学习系统的计算机实现方法,包括:
使用第一强化学习技术训练动作选择策略神经网络(112),
其中,动作选择策略神经网络(112)具有多个动作选择策略网络参数并用于选择要由与环境交互的代理执行的动作,
其中,动作选择策略神经网络(112)被配置为在每个时间步长接收包括观察输入(104)的输入并根据网络参数处理输入以生成动作选择策略输出,其中,动作选择策略输出确定在每个时间步长由代理(108)执行的动作(110);并且
其中,训练动作选择策略神经网络(112)包括调整动作选择策略网络参数的值;并且特征在于:
在使用第一强化学习技术训练动作选择策略神经网络(112)期间:
在动作选择策略神经网络(112)的训练期间训练关于代理与环境的交互的一个或多个辅助控制神经网络(118,120)中的每个辅助控制神经网络,
其中,辅助控制神经网络中的每个辅助控制神经网络具有相应的辅助控制参数并对应于相应的辅助控制任务并被配置为:
接收由动作选择策略神经网络(112)生成的相应的中间输出,以及
根据辅助控制神经网络的相应的辅助控制参数,生成对于相应的辅助控制任务的策略输出;并且
其中,训练辅助控制神经网络中的每个辅助控制神经网络包括:
基于由辅助控制神经网络生成的策略输出确定梯度;以及
使用梯度调整相应的辅助控制参数和动作选择策略网络参数的值,
其中训练辅助控制神经网络中的每个辅助控制神经网络还包括:
响应于代理与环境的交互,接收特定于对应的辅助控制任务的辅助任务奖励;以及
使用相应的第二强化学习技术训练辅助控制神经网络,以最大化对于对应的辅助控制任务的预期的长期时间折扣的辅助任务奖励。
2.如权利要求1所述的方法,其中,使用相应的第二强化学习技术训练辅助控制神经网络以最大化对于对应的辅助控制任务的预期的长期时间折扣的辅助任务奖励包括:
将使用相应的第二强化学习技术计算的梯度反向传播到动作选择策略神经网络中,以调整动作选择策略参数的值。
3.如权利要求1或2中任一项所述的方法,其中,观察输入包括图像,
其中,辅助控制神经网络包括像素控制神经网络,该像素控制神经网络对应于试图对于每个观察图像的一个或多个区域中的每个区域最大化该区域中的像素的变化的像素控制任务,并且
其中,对于每个观察图像,对于该一个或多个区域中的每个区域的相应奖励是从观察图像到作为代理响应于观察图像执行动作的结果而接收的下一观察图像的区域中的像素的变化导出的。
4.如权利要求3所述的方法,其中,像素控制神经网络被配置为,对于接收的观察图像:
接收对于像素控制神经网络的相应的中间输出;以及
处理相应的中间输出,以便如果代理响应于接收的观察图像执行可能动作,则对于该一个或多个区域中的每个区域以及对于要由代理执行的多个可能动作中的每个动作生成该区域中的像素的长期时间折扣变化的估计。
5.如权利要求3所述的方法,其中,像素控制神经网络为去卷积神经网络。
6.如权利要求1-2中任一项所述的方法,其中,观察输入包括图像,
其中,辅助控制神经网络包括特征控制神经网络,该特征控制神经网络对应于试图最大化由动作选择策略神经网络的特定隐藏层中的一个或多个单元生成的激活的特征控制任务,并且
其中,对于每个观察图像,对于该一个或多个单元中的每个单元的相应奖励是从在处理观察图像期间生成的激活到在处理作为代理响应于观察图像执行动作的结果而接收的下一观察图像期间生成的激活的该单元的激活中的变化导出的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780080119.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:鱼摄像装置以及鱼计数装置
- 下一篇:递归环境预测器及其方法