[发明专利]通过具有对抗强化学习的动作成形来进行模仿学习在审
申请号: | 201910679383.2 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110782000A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | T-H·帕姆;G·德马吉斯特里斯;D·J·R·阿格拉万特;立花隆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 11038 中国国际贸易促进委员会专利商标事务所 | 代理人: | 邹丹 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理器设备 强化学习 对抗 演示 计算机程序产品 计算机处理系统 读取 计算机实现 代理 成形 模仿 失败 学习 | ||
本公开涉及通过具有对抗强化学习的动作成形来进行模仿学习。提供了一种用于获得多个坏的演示的计算机实现的方法、计算机程序产品和计算机处理系统。所述方法包括由处理器设备读取拥护者环境。所述方法还包括由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理。所述方法还包括由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。
技术领域
本发明总体上涉及机器学习,更具体地说,涉及通过具有对抗强化学习的动作成形来进行模仿学习。
背景技术
监督学习(SL)支持通过专家演示进行的快速策略培训。然而,SL通常需要大量的数据来实现泛化。
强化学习(RL)可以通过高级任务表示来训练控制策略。然而,尽管随机探索对发现新策略很重要,但它可能过于耗时。
由于演示有好有坏,有可能会学习SL对动作空间的限制,以便在RL期间加速探索。然而,纯手工平衡地收集好的和坏的例子可能是困难的。相反,收集大部分都是好的演示(例如,完整的成功路径(trajectory))而不附带坏的例子可能更容易。因此,需要一种方法来轻松收集大部分坏的演示。
发明内容
根据本发明的一个方面,提供了一种用于获得多个坏的演示的计算机实现的方法。该方法包括由处理器设备读取拥护者环境。该方法还包括由处理器设备通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。该方法还包括由处理器设备通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。
根据本发明的另一个方面,提供了一种用于获得多个坏的演示的计算机程序产品。该计算机程序产品包括具有程序指令的非暂时性计算机可读存储介质。程序指令可由计算机执行,以使计算机执行一种方法。该方法包括由处理器设备读取拥护者环境。该方法还包括由处理器设备通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。该方法还包括由处理器设备通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。
根据本发明的又一方面,提供了一种用于获得多个坏的演示的计算机处理系统。该计算机处理系统包括用于存储程序代码的存储器。该计算机处理系统还包括处理器设备,其可操作地耦合到存储器,用于运行程序代码来读取拥护者环境。处理器设备还运行程序代码,以通过使用拥护者环境进行强化学习来训练使任务失败的多个对抗代理。处理器设备还运行程序代码,以通过在拥护者环境上扮演经训练的对抗代理来收集多个坏的演示。
根据下面结合附图阅读的说明性实施例的详细描述,这些和其他特征和优点将变得显而易见。
附图说明
以下描述将参考以下附图提供优选实施例的细节,其中:
图1是示出根据本发明实施例的本发明可以应用到的示例性处理系统的框图;
图2是示出根据本发明的实施例的通过具有对抗性强化学习的动作成形进行模仿学习的示例性方法的流程图;
图3是示出根据本发明实施例的本发明可以应用到的示例性环境的框图;
图4-5是示出根据本发明的实施例的通过具有对抗强化学习的动作成形进行模仿学习的示例性方法的流程图;
图6是示出了根据本发明实施例的通过具有对抗强化学习的动作成形进行模仿学习的示例性系统的高级框图;
图7是示出根据本发明实施例的具有一个或多个云计算节点的说明性云计算环境的框图,云消费者使用的本地计算设备与云计算节点进行通信;和
图8是示出根据本发明实施例的由云计算环境提供的一组功能抽象层的框图。
具体实施方式
本发明涉及通过具有对抗强化学习的动作成形来进行模仿学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910679383.2/2.html,转载请声明来源钻瓜专利网。