[发明专利]通过具有对抗强化学习的动作成形来进行模仿学习在审

申请号：	201910679383.2	申请日：	2019-07-26
公开（公告）号：	CN110782000A	公开（公告）日：	2020-02-11
发明（设计）人：	T-H·帕姆;G·德马吉斯特里斯;D·J·R·阿格拉万特;立花隆	申请（专利权）人：	国际商业机器公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00
代理公司：	11038 中国国际贸易促进委员会专利商标事务所	代理人：	邹丹
地址：	美国***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	处理器设备强化学习对抗演示计算机程序产品计算机处理系统读取计算机实现代理成形模仿失败学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于获得多个坏的演示的计算机实现的方法，包括：

由处理器设备读取拥护者环境；

由所述处理器设备通过使用所述拥护者环境进行强化学习来训练使任务失败的多个对抗代理；和

由所述处理器设备通过在所述拥护者环境上扮演所述经训练的对抗代理来收集所述多个坏的演示。

2.根据权利要求1所述的计算机实现的方法，其中训练所述多个对抗代理包括：

使用所述拥护者环境重置多个对抗环境；和

在所述多个对抗环境中的每一个的多个实例上训练所述多个对抗代理。

3.根据权利要求2所述的计算机实现的方法，其中重置所述多个对抗环境包括将所述多个对抗环境重置为拥护者演示中的受访专家状态。

4.根据权利要求2所述的计算机实现的方法，其中所述拥护者环境包括状态和动作转换函数以及回报结构信息，并且其中，重置所述多个对抗环境包括对于所述多个对抗环境中的每一个，使用(i)与所述拥护者环境的所述状态和动作转换函数相同的一个状态和动作转换函数，(ii)源自所述拥护者环境的回报结构的回报结构，以及(iii)使用所述拥护者环境的受访状态作为初始状态。

5.根据权利要求4所述的计算机实现的方法，其中，从所述拥护者环境的回报结构导出的回报结构包括拥护者回报的否定。

6.根据权利要求1所述的计算机实现的方法，其中，在所述拥护者环境上扮演所述经训练的对抗代理包括从拥护者演示中的专家状态和导致不可恢复状态的对抗动作来构建所述多个坏的演示。

7.根据权利要求1所述的计算机实现的方法，还包括使用所述多个坏的演示和多个好的演示来学习依赖于状态的动作约束。

8.根据权利要求7所述的计算机实现的方法，还包括通过使用所述状态相关动作约束用于探索指导，通过强化学习来训练拥护者策略。

9.根据权利要求1所述的计算机实现的方法，其中，每个所述经训练的对抗代理是各自的随机神经网络策略。

10.根据权利要求1所述的计算机实现的方法，其中，所述多个对抗代理被训练成使用对应于不同策略的不同随机种子，在从所述拥护者环境构建的至少一个对抗环境中最大化预期返回值。

11.一种计算机程序产品，用于获得多个坏的演示，所述计算机程序产品包括具有包含在其中的程序指令的非暂时性计算机可读存储介质，所述程序指令可由计算机执行以使所述计算机执行根据权利要求1至10中任一项所述的方法。

12.一种用于获得多个坏的演示的计算机处理系统，包括：

用于存储程序代码的存储器；和

处理器设备，其可操作地耦合到所述存储器，用于运行所述程序代码以执行根据权利要求1至10中任一项所述的方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国际商业机器公司，未经国际商业机器公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910679383.2/1.html，转载请声明来源钻瓜专利网。

上一篇：神经网络架构的选择方法及装置
下一篇：一种基于组卷积神经网络使用共享卷积核的改进方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过具有对抗强化学习的动作成形来进行模仿学习在审

专利文献下载