[发明专利]基于因果图的分层强化学习任务图进化方法无效

申请号：	201110369847.3	申请日：	2011-11-18
公开（公告）号：	CN102521203A	公开（公告）日：	2012-06-27
发明（设计）人：	王红兵;周建才	申请（专利权）人：	东南大学
主分类号：	G06F15/18	分类号：	G06F15/18;G06N3/12
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	朱戈胜
地址：	210089 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于因果分层强化学习任务进化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及利用计算机对分层强化学习的任务图进行优化的方法。

技术背景

分层强化学习是解决强化学习维数灾难问题的一种重要方法。目前分层强化学习中三种典型的方法分别是Sutton提出的Option、Parr提出的HAM和Dietterich提出的MAXQ。分层强化学习的一个重要问题是分层任务图需要由设计者根据专家知识事先给定。由于手工构造分层强化学习的层次结构需要具备相关的专家知识，不能满足动态未知环境的需要，于是如何自动发现并构造任务的层次结构成为分层强化学习的一个重大问题。而目前很多HRL自动分层方法都针对Option方法的，但是Option在利用先验知识划分子任务时任务的划分结果表达不够清晰且子任务内部策略难以确定。早期的关于HRL的自动分层研究主要针对Option方法，主要从发现路标状态、共用子空间、状态的特征向量和使子空间具有良好的Markov性质出发。这些自动分层方法总体上存在着对状态空间的特性依赖过强的问题。由于MAXQ方法能很好的利用先验知识并具有很强的在线学习能力，故而基于MAXQ分层强化学习方法的自动分层方法研究具有重要的意义。

目前，关于MAXQ自动分层方法主要有HI-MAT方法，但是HI-MAT得到的任务图依赖于观察到的一条成功路径，从而得到任务图结构空间中和这条轨迹一致的任务图，这样容易陷入局部最优。

发明内容

本发明提供了一种对HI-MAT分层强化学习任务图自动构造方法构造出的任务图的进行改进的方法。该方法得到的任务图的学习速度可以和依靠专家知识构造出的任务图一样快，并在系统复杂时可以超过手工构造的任务图。而且本方面所设计的改进算法可以适应环境动态变化的情况。

为实现上述目的，本发明提供一种基于因果图的分层强化学习任务图进化方法。在对本方法具体步骤进行描述之前，首先给出相关定义：

(a)因果图：顶点集合为状态变量集合和奖赏结点，边集合为动作的作用下状态变量之间的依赖关系，两个状态变量i、j之间有有向边当且仅当存在一个动作a且它的DBN中i、j存在之间存在有向边。

(b)强连通组件：由一个或者多个通过有向路径可互达的状态变量组成的集合V_c。引入强连通组件可对因果图进行去环。

(c)组件图：由强连通组件作为节点组成的有向图，节点之间有边当且仅当因果途中存在第一个节点组件中的某个状态变量到第二个节点组件中的某个状态变量在因果图中有边。组件图是去环后的因果图。

(d)状态变量V的依赖状态变量集由其所在强连通组件中的其它状态变量和组件图中有到此强连通组件的边的组件所含状态变量组成。

(e)任务(task)T_i＝(X_i，G_i，C_i)，其中X_i为T_i值函数的相关变量，G_i为目标或终止谓词，C_i为子任务集合。

(f)任务结点之间保持因果依赖性是指父任务结点T_i的X_i中存在状态变量其依赖状态变量集V_di中含有子任务结点T_j的X_j中的状态变量。即对父任务结点T_i和其任意子任务结点T_j，∃(Vi≡Xi)Λ(Vj∈Xj)Λ(Vj∈Vdi).]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110369847.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于因果图的分层强化学习任务图进化方法无效

专利文献下载