[发明专利]通过具有对抗强化学习的动作成形来进行模仿学习在审
申请号: | 201910679383.2 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110782000A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | T-H·帕姆;G·德马吉斯特里斯;D·J·R·阿格拉万特;立花隆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 11038 中国国际贸易促进委员会专利商标事务所 | 代理人: | 邹丹 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及通过具有对抗强化学习的动作成形来进行模仿学习。提供了一种用于获得多个坏的演示的计算机实现的方法、计算机程序产品和计算机处理系统。所述方法包括由处理器设备读取拥护者环境。所述方法还包括由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理。所述方法还包括由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。 | ||
搜索关键词: | 处理器设备 强化学习 对抗 演示 计算机程序产品 计算机处理系统 读取 计算机实现 代理 成形 模仿 失败 学习 | ||
【主权项】:
1.一种用于获得多个坏的演示的计算机实现的方法,包括:/n由处理器设备读取拥护者环境;/n由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理;和/n由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910679383.2/,转载请声明来源钻瓜专利网。