[发明专利]进行学习以鲁棒地控制系统在审
| 申请号: | 201980098404.X | 申请日: | 2019-07-16 |
| 公开(公告)号: | CN114270375A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 穆罕默德·阿卜杜拉;海瑟姆·布·阿马尔;任航;张鸣天 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/00;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 进行 学习 控制系统 | ||
一种系统,用于执行强化学习以生成可用作模型中的参数的值的解集,从而使所述模型针对性能度量提供一定水平的性能,所述系统用于:形成包括候选参数值集的候选解;重复执行以下步骤:通过评估具有所述候选解的所述值的模型针对所述性能度量提供高水平性能的程度,对所述候选解的质量进行第一评估;通过评估具有所述候选解的所述值的模型未能针对所述性能度量提供低水平性能的程度,对所述候选解的质量进行第二评估;根据所述第一评估和所述第二评估形成另一个候选解。
技术领域
本发明涉及避免强化学习中的脆性,具体地,涉及进行学习以通过对动态变化鲁棒的方式控制系统。
背景技术
在强化学习(reinforcement learning,RL)中,系统被建模为马尔可夫决策问题(Markov decision problem,MDP)。这被定义为元组X,U,p,r,,其中,X是状态空间,U是动作空间,p(·|x,u)是每个状态-动作对(x,u)的下一个状态的概率分布,r(x,u)是奖励(正实数或负实数)。概率分布p称为动态。
MDP的控制器称为策略。它通常被实现为给定当前状态x的动作的概率分布,表示为π(·|x)。配备启动状态分布和策略的MDP会产生马尔可夫奖励过程(Markov rewardprocess,MRP)。它归纳了轨迹上的概率分布(轨迹是状态、动作、奖励的序列)。
RL中的标准目标是优化预期回报,即总折扣奖励:
其中,μ是初始分布,其中:
假设动态p是固定的,即如果在给定状态下采取相同的动作,则在接下来的状态的分布与在其它时间在该状态下采取该动作的分布情况相同。动态与应用于MDP的任何控制策略无关。
MDP的固定动态的这一方面是标准RL算法中的一个基本假设。但是,由此产生了几个问题。
如果策略在某一MDP上进行训练,然后部署在具有不同动态的MDP上,则策略通常表现不佳,即策略在动态变化方面往往是脆性的。例如,如果RL代理使用模拟器(例如,汽车或机器人的模拟器)进行训练,然后部署在真实的物理系统中,则模拟器表现不完美,它模拟的动态将与现实世界的动态不完全相同。
另一个问题是,在现实世界中在不同时间发生的动态变化将影响结果。例如,由于例如路面、承载负载的差异或轮胎气压,汽车的驾驶员会经历不同的动态。任何机器都可能由于温度或润滑的变化而出现摩擦差异。任何产生对这些动态变化脆性的控制策略的算法显然都实际上不适用。到目前为止,RL在实验室之外或游戏等受控环境之外并没有特别成功的原因之一是缺乏鲁棒性。
先前的方法已试图制定对这种动态变化更鲁棒的策略。例如,在Tessler等人的“动作鲁棒强化学习及其在连续控制中的应用(Action Robust Reinforcement Learningand Applications in Continuous Control)”(ICML 2019)中,这个问题被框定为零和博弈。策略给出了以下鲁棒性标准的动作:(i)以固定的概率,采取不同的可能是对抗性的动作,(ii)向动作本身中添加扰动。但是,尽管算法在一些Mujoco任务中表现良好,但在其它任务(如倒摆)中表现较差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980098404.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于汽车内饰的可热成型表皮材料及其制造方法
- 下一篇:半导体装置





