[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效
申请号: | 201110367593.1 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102521202B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 王红兵;李文雅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 南京天翼专利代理有限责任公司32112 | 代理人: | 朱戈胜 |
地址: | 211189 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 复杂 系统 中的 maxq 任务 结构 自动 发现 方法 | ||
技术领域
本发明涉及利用计算机解决复杂系统中大规模任务下的分层强化学习的自动分层的方法。
背景技术
目前尚未发现利用计算机通过结合聚类方法对解决大规模任务下的MAXQ自动分层问题。虽然已有一些方法可以解决分层强化学习的分层问题,诸如:瓶颈和路标状态法、共用子空间法、多维状态法和马氏空间法等,这些方法与本发明有着一定的联系,即都是分层强化学习的自动分层领域的问题。但是具体解决的是完全不同的问题,之前的方法大都是基于Option,或是Q-learning等方法,而本人的发明是基于MAXQ方法的分层强化学习。
在各种典型的分层强化学习方法中任务分解和问题表达方式有所不同,但其本质可归结为对马尔科夫决策过程(MDP:Markov Decision Process)划分并抽象出子MDP系列以及在不同层次分别进行学习的模式。微观上,子MDP在各自所处的局部状态空间中学习其内部策略,属MDP;宏观上,将每个子MDP视为一个抽象动作在抽象状态空间中学习最优策略,属半马尔可夫决策过程(SMDP:Semi-Markov Decision Process),各子MDP所处的局部状态空间和抽象后的状态空间维数或规模均低于原MDP状态空间。这种抽象概念的引入,自然导致了强化学习系统的分层控制结构,抽象方法和抽象程度不同,层次结构也随之不同。
Option框架下,允许执行时态拓展动作,显著改变了Agent的学习效率,缩短了强化学习系统中常见的摆动期,Option的设计可以利用先验知识,加速了从学习到相关任务的转移,不过在未知环境中利用先验知识设计Option内部策略是非常困难的。HAM通过限定待学习策略类型简化了MDP,从而提高了强化学习系统的学习效率,由于随机有限状态机的状态转移只需依据部分状态即可确定,所以HAM可以应用到环境部分可观测领域。而MAXQ不直接将问题简化为单个SMDP,而是建立可以同时学习的分层SMDP,MAXQ采用的是让人更易理解的分层学习框架而不是子任务策略,它既包含时态抽象又包含状态抽象,它的特点是子任务与上下文无关,因此,每个子任务都可以用一个SMDP进行建模并且可以并发学习。在标准强化学习收敛条件下,Option、HAM可收敛到最优策略解,MAXQ收敛到递归最优解。MAXQ方法用任务图可以清楚地表达任务的分层结构,而且该方法在线学习能力强,但MAXQ自动分层能力较弱,且经常存在状态空间依然很大的子任务无法继续划分。
发明内容
本发明的目的是提供一种让计算机以类似于人的方式(类似)对分层强化学习的层次结构进行感知,可以达到与人类似的水平。而且本发明利用学习感知到的各种信息建立聚类模型可以达到更高的精度。
本发明提出一种新的解决方法——采用基于动作执行效果的聚类方法DMEA(Clustering Method by the Effect of Action)的面向复杂系统中的MAXQ任务图结构的自动发现方法,该方法通过搜集动作影响的状态变量,分析动作的执行对系统状态的影响,从而抽象出聚类对象,通过执行聚类算法实现MAXQ任务图的自动构造。
在对该方法具体步骤进行描述之前,首先给出相关定义:
(1)MDP由四元组(S,A,R,P)定义,包含一个环境状态集S,系统动作集合A,报酬函数R:S函A→R和状态转移概率P:S转移概率环境状。强化学习的模型图如图1所示;
(2)MAXQ方法将MDP任务分解为子任务集M={M0,M1,…,Mn}以及将策略π分解为策略集合{π0,π1,…,πn},其中,πi是Mi的策略;
(3)子任务形成以M0为根节点的分层结构,称为任务图(Task Graph),解决了M0也就解决了M,要解决M0所采取的动作或者是执行基本动作或者是执行其它子任务,如此依次调用。
本发明的技术方案如下:
一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110367593.1/2.html,转载请声明来源钻瓜专利网。