[发明专利]通过具有对抗强化学习的动作成形来进行模仿学习在审
申请号: | 201910679383.2 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110782000A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | T-H·帕姆;G·德马吉斯特里斯;D·J·R·阿格拉万特;立花隆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 11038 中国国际贸易促进委员会专利商标事务所 | 代理人: | 邹丹 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理器设备 强化学习 对抗 演示 计算机程序产品 计算机处理系统 读取 计算机实现 代理 成形 模仿 失败 学习 | ||
1.一种用于获得多个坏的演示的计算机实现的方法,包括:
由处理器设备读取拥护者环境;
由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理;和
由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。
2.根据权利要求1所述的计算机实现的方法,其中训练所述多个对抗代理包括:
使用所述拥护者环境重置多个对抗环境;和
在所述多个对抗环境中的每一个的多个实例上训练所述多个对抗代理。
3.根据权利要求2所述的计算机实现的方法,其中重置所述多个对抗环境包括将所述多个对抗环境重置为拥护者演示中的受访专家状态。
4.根据权利要求2所述的计算机实现的方法,其中所述拥护者环境包括状态和动作转换函数以及回报结构信息,并且其中,重置所述多个对抗环境包括对于所述多个对抗环境中的每一个,使用(i)与所述拥护者环境的所述状态和动作转换函数相同的一个状态和动作转换函数,(ii)源自所述拥护者环境的回报结构的回报结构,以及(iii)使用所述拥护者环境的受访状态作为初始状态。
5.根据权利要求4所述的计算机实现的方法,其中,从所述拥护者环境的回报结构导出的回报结构包括拥护者回报的否定。
6.根据权利要求1所述的计算机实现的方法,其中,在所述拥护者环境上扮演所述经训练的对抗代理包括从拥护者演示中的专家状态和导致不可恢复状态的对抗动作来构建所述多个坏的演示。
7.根据权利要求1所述的计算机实现的方法,还包括使用所述多个坏的演示和多个好的演示来学习依赖于状态的动作约束。
8.根据权利要求7所述的计算机实现的方法,还包括通过使用所述状态相关动作约束用于探索指导,通过强化学习来训练拥护者策略。
9.根据权利要求1所述的计算机实现的方法,其中,每个所述经训练的对抗代理是各自的随机神经网络策略。
10.根据权利要求1所述的计算机实现的方法,其中,所述多个对抗代理被训练成使用对应于不同策略的不同随机种子,在从所述拥护者环境构建的至少一个对抗环境中最大化预期返回值。
11.一种计算机程序产品,用于获得多个坏的演示,所述计算机程序产品包括具有包含在其中的程序指令的非暂时性计算机可读存储介质,所述程序指令可由计算机执行以使所述计算机执行根据权利要求1至10中任一项所述的方法。
12.一种用于获得多个坏的演示的计算机处理系统,包括:
用于存储程序代码的存储器;和
处理器设备,其可操作地耦合到所述存储器,用于运行所述程序代码以执行根据权利要求1至10中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910679383.2/1.html,转载请声明来源钻瓜专利网。