[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效
申请号: | 201110367593.1 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102521202B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 王红兵;李文雅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 南京天翼专利代理有限责任公司32112 | 代理人: | 朱戈胜 |
地址: | 211189 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 复杂 系统 中的 maxq 任务 结构 自动 发现 方法 | ||
1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:
假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;
强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;
其特征是本自动发现方法的步骤包括:
(1)首先采用Q-learning探索环境,搜集动作影响的状态变量;
(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;
(3)得出分层任务图。
2.根据权利要求1所述的面向复杂系统中的MAXQ任务图结构的自动发现方法,其特征是
首先采用Q-learning探索环境,搜集动作影响的状态变量,搜集的信息包括:
状态Si在执行动作ai后状态Si中状态变量的改变;状态Si在执行动作ai后指向的下一个状态Si’,将Si->ai->Si’这一执行序列记录下来;
将获取的信息表示为Xk(i)={[Sk,ai,Sk’],Att},其中Att记录了状态Sk在执行动作ai后状态Sk中状态变量的改变情况,[Sk,ai,Sk’]则是记录状态Sk在执行动作ai后指向的下一个状态Sk’这一动作;根据MDP已知有n个动作,p个状态,每个动作都可以作用在p个不同的系统状态上,那么将MDP问题映射到聚类模型中,就是已知n个数据对象,也就是聚类对象,每个对象都有p个实数的测量值;
表示第i个对象的观测向量的方法如下:
X(i)={X1(i),X2(i),…,Xp(i)},1<=i<=n,其中X(i)表示第i个对象的观测向量集合,也就是第i个动作ai作用在p个不同状态上的观测集合,该集合里的每一个元素表示动作ai作用在某个状态上的观测向量;
用d(i,j)表示两个数据对象之间的相异性,并满足以下三个条件的不相似尺度:
对于所有的i和j,d(i,j),并且当且仅当i=j时d(i,j)=0;
对于所有的i和j,d(i,j)=d(j,i);
对于所有的i,j和k,d(i,j)<=d(i,k)+d(k,j);
那么对象之间的欧式距离Euclidean distance被定义为:
这个尺度是以变量间的同一尺度为前提的,如果变量在不同的尺度下,则需要引入数据标准化策略,即用样本的标准差除以每一个变量,以便使所有的变量都可以被看做是具有同等的重要性;
第k个变量的xk标准差μk是xk的均值,于是可以消除尺度不同的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110367593.1/1.html,转载请声明来源钻瓜专利网。