[发明专利]通过最小化妄想影响来确定控制策略在审
申请号: | 201980070743.7 | 申请日: | 2019-10-29 |
公开(公告)号: | CN112930541A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘畠;达莱·埃里克·舒尔曼斯;克雷格·埃德加·布蒂利耶 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 最小化 妄想 影响 确定 控制 策略 | ||
本发明涉及用于确定用于与环境交互的代理的控制策略的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法之一包括通过使用Q学习而使用策略一致的备份来更新控制策略。为了确定策略一致的备份,所述系统确定在当前观察‑当前动作对的用于控制策略的策略一致的备份,包括:针对代理能够执行的可能动作集中的多个动作中的每个动作,标识由控制策略分配给控制策略的下一观察‑动作对并且由信息集中的至少一个来证明的Q值;从所标识的Q值中修剪仅由不是策略类一致的信息集证明的任何Q值;以及从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份。
相关申请的交叉引用
本申请要求申请日为2018年10月29日、申请序列号为62/752,306的美国申请的优先权权益,其全部内容通过引用并入本文。
技术领域
本说明书涉及强化学习。
背景技术
在强化学习系统中,代理通过执行由强化学习系统响应于接收到用于表征环境当前状态的观察而选择的动作来与环境交互。
一些强化学习系统响应于接收到给定观察,根据神经网络的输出来选择待由代理执行的动作。
神经网络是一种机器学习模型,其采用一层或多层非线性单元来预测针对所接收输入的输出。一些神经网络是深度神经网络,除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层的输入,即下一隐藏层或输出层。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。
发明内容
本说明书总体上描述一种增强学习系统,该系统控制与环境交互的代理,并且特别是确定用于控制所述代理的控制策略。
能够实施本说明书所述主题的特定实施例,以便实现以下优点中的一个或多个。
使用Q学习来学习用于代理的控制策略的常规系统可能通过使用从基础策略类中无法实现的动作选择中导出的备份值估计来更新策略。也就是说,在常规的Q学习中,通过使用max运算符而独立地选择在对应的下一状态处的动作,即,通过当在下一状态处选择argmax动作时使用用于所述argmax动作的Q值来生成目标Q值,来生成状态-动作对的备份。这假定独立选择的最大值是可行的,即,选择在下一状态处得出最大Q值的动作是与为到达下一状态所采取的其他动作选择相一致的。换而言之,这假定存在一种控制策略,该控制策略既会选择在下一状态下得出最大Q值的动作,又会作出为到达下一状态所采取的其他动作选择。
当违反这一假设时,其可能时常如此,这会导致控制策略学习过程出现问题。特别地,违反这些假设(如在实施常规Q学习变型模式的系统中所发生的)可能导致学习过程出现分歧,可能导致待学习的控制策略在任务上不能很好地执行,或者导致学习过程运行过量的迭代。另一方面,所描述的技术避免违反这一假设或尽量减少违反这一假设,从而改进的针对代理所学习的控制策略,这又会提高代理在期望任务上的性能。附加地,能够以更少的迭代来学习控制策略,以减少由所述学习过程消耗的计算资源。
特别地,所描述的技术通过使用多种技术来确定对控制策略的更新(和备份),所述多种技术避免了显式地违反这一假设,例如,通过维持信息集并仅用策略一致的Q值来更新这些信息集,或者通过采用启发法(其减少了违反所述假设的似然率),例如通过选择在一批训练元组内局部一致的下一动作。
所描述的技术在与真实世界环境和诸如机械代理/机器人或工厂/服务设施的代理结合使用时,能够导致对为控制所述代理所学习的控制策略的改进,例如对通过使用经学习的控制策略来执行任务的能量效率、准确性、速度和/或输出改进。
在附图以及下面的描述中阐明在本说明书中所述主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得更为清楚。
附图说明
图1A示出示例的强化学习系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980070743.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可食性宠物咬胶及其形成方法
- 下一篇:脉搏波速度测量系统