[发明专利]基于因果图的分层强化学习任务图进化方法无效
申请号: | 201110369847.3 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102521203A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 王红兵;周建才 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18;G06N3/12 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 朱戈胜 |
地址: | 210089 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 因果 分层 强化 学习 任务 进化 方法 | ||
技术领域
本发明涉及利用计算机对分层强化学习的任务图进行优化的方法。
技术背景
分层强化学习是解决强化学习维数灾难问题的一种重要方法。目前分层强化学习中三种典型的方法分别是Sutton提出的Option、Parr提出的HAM和Dietterich提出的MAXQ。分层强化学习的一个重要问题是分层任务图需要由设计者根据专家知识事先给定。由于手工构造分层强化学习的层次结构需要具备相关的专家知识,不能满足动态未知环境的需要,于是如何自动发现并构造任务的层次结构成为分层强化学习的一个重大问题。而目前很多HRL自动分层方法都针对Option方法的,但是Option在利用先验知识划分子任务时任务的划分结果表达不够清晰且子任务内部策略难以确定。早期的关于HRL的自动分层研究主要针对Option方法,主要从发现路标状态、共用子空间、状态的特征向量和使子空间具有良好的Markov性质出发。这些自动分层方法总体上存在着对状态空间的特性依赖过强的问题。由于MAXQ方法能很好的利用先验知识并具有很强的在线学习能力,故而基于MAXQ分层强化学习方法的自动分层方法研究具有重要的意义。
目前,关于MAXQ自动分层方法主要有HI-MAT方法,但是HI-MAT得到的任务图依赖于观察到的一条成功路径,从而得到任务图结构空间中和这条轨迹一致的任务图,这样容易陷入局部最优。
发明内容
本发明提供了一种对HI-MAT分层强化学习任务图自动构造方法构造出的任务图的进行改进的方法。该方法得到的任务图的学习速度可以和依靠专家知识构造出的任务图一样快,并在系统复杂时可以超过手工构造的任务图。而且本方面所设计的改进算法可以适应环境动态变化的情况。
为实现上述目的,本发明提供一种基于因果图的分层强化学习任务图进化方法。在对本方法具体步骤进行描述之前,首先给出相关定义:
(a)因果图:顶点集合为状态变量集合和奖赏结点,边集合为动作的作用下状态变量之间的依赖关系,两个状态变量i、j之间有有向边当且仅当存在一个动作a且它的DBN中i、j存在之间存在有向边。
(b)强连通组件:由一个或者多个通过有向路径可互达的状态变量组成的集合Vc。引入强连通组件可对因果图进行去环。
(c)组件图:由强连通组件作为节点组成的有向图,节点之间有边当且仅当因果途中存在第一个节点组件中的某个状态变量到第二个节点组件中的某个状态变量在因果图中有边。组件图是去环后的因果图。
(d)状态变量V的依赖状态变量集由其所在强连通组件中的其它状态变量和组件图中有到此强连通组件的边的组件所含状态变量组成。
(e)任务(task)Ti=(Xi,Gi,Ci),其中Xi为Ti值函数的相关变量,Gi为目标或终止谓词,Ci为子任务集合。
(f)任务结点之间保持因果依赖性是指父任务结点Ti的Xi中存在状态变量其依赖状态变量集Vdi中含有子任务结点Tj的Xj中的状态变量。即对父任务结点Ti和其任意子任务结点Tj,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110369847.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有偏置铰链的橱柜
- 下一篇:一种基于燃料电池的热电联供系统