[发明专利]利用合成环境改进强化学习的设备和方法在审
| 申请号: | 202210014020.9 | 申请日: | 2022-01-07 |
| 公开(公告)号: | CN114757331A | 公开(公告)日: | 2022-07-15 |
| 发明(设计)人: | T·尼尔霍夫;F·费雷拉;F·胡特尔 | 申请(专利权)人: | 罗伯特·博世有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘艺诗;吕传奇 |
| 地址: | 德国斯*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 合成 环境 改进 强化 学习 设备 方法 | ||
提供了利用合成环境改进强化学习的设备和方法。一种用于学习策略()的计算机实现的方法和/或用于学习合成环境的方法,其中所述策略被配置为控制智能体,包括以下步骤:提供合成环境参数()和真实环境()以及策略群体。后续,重复以下步骤达预定次数的重复作为第一循环:对策略群体中的每个策略实行后续步骤作为第二循环:用随机噪声干扰合成环境参数();针对受干扰的合成环境训练策略达第一给定数量的步骤;通过确定训练策略的奖励,针对真实环境评估训练策略;取决于噪声和奖励更新合成环境参数。最后,输出针对真实环境具有最高奖励或针对受干扰的合成环境具有最佳训练策略的评估策略()。
技术领域
本发明涉及用于通过学习合成环境来针对智能体(agent)进行改进策略学习的方法,以及用于通过该策略操作致动器的方法、计算机程序和机器可读存储介质、分类器、控制系统以及训练系统。
背景技术
作者Such、Felipe Petroski等人的“Generative teaching networks:Accelerating neural architecture search by learning to generate synthetictraining data”(International Conference on Machine Learning. PMLR,2020)的出版物(在线可获得:https://arxiv.org/abs/1912.07768)公开了一种称为“生成型教学网络”(GTN)的通用学习框架,其由两个神经网络组成,这两个神经网络在双层优化中共同作用以产生小的合成数据集。
本发明的优点
与作者Such等人的上面提及的出版物形成对照,本发明在中心方面是不同的。特别地,本发明不使用噪声向量作为用于生成合成数据集的输入。此外,GTN设置被应用于强化学习(RL)而不是监督学习。此外,本发明使用进化搜索(ES)来避免显式计算二阶元梯度的需要。ES是有益的,这是因为不需要显式计算二阶元梯度——这可能是昂贵和不稳定的,特别是在RL设置中,其中内部循环的长度可能是变化的和高的。ES可以进一步容易地并行化,并使得我们的方法能够与智能体无关。
本发明使得能够学习用于强化学习的与智能体无关的合成环境(SE)。SE充当目标环境的代理(proxy),并且与当针对目标环境直接训练时相比允许更高效地训练智能体。通过使用自然进化策略和SE参数向量的群体,本发明能够学习SE,其允许更鲁棒地并且针对真实环境用最多减少50-75%的步骤训练智能体。
因此,本发明通过学习代理数据生成过程来改进RL,该代理数据生成过程允许针对任务更有效和高效地训练学习器,也就是说,与当针对原始数据生成过程直接训练时相比更快地实现类似或更高的性能。
另一个优点是,由于智能体和合成环境的策略的分离优化,本发明与用于训练强化学习智能体的所有不同方法(例如策略梯度或深度Q-学习)兼容。
发明内容
在第一方面,本发明涉及一种用于学习被配置为控制智能体的策略的计算机实现的方法。这意味着策略至少取决于智能体环境的提供状态来确定智能体的动作。
该方法包括以下步骤:
初始提供合成环境参数和真实环境以及初始化策略的群体。合成环境的特征在于如下事实:它将在学习策略时被构建和学习,并且它取决于真实环境被间接学习。这暗示着合成环境是真实环境的虚拟再现。
智能体可以直接与真实和合成环境交互,其例如通过实行动作并在所述动作之后立即接收环境的状态。不同之处在于合成环境的接收状态取决于合成环境参数被确定,其中真实环境的接收状态或者由传感器感测或者由真实环境的详尽模拟确定。
于是跟随着重复后续步骤达预定次数的重复作为第一循环。第一循环至少包括以下步骤:对群体的所有策略实行第二循环并且之后更新合成环境的参数以使其更好地与真实环境对准,更精确地说,提供更好的代理环境以允许针对代理学习的智能体为真实环境找到更强大的策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于罗伯特·博世有限公司,未经罗伯特·博世有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210014020.9/2.html,转载请声明来源钻瓜专利网。





