[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效

专利信息
申请号: 201110367593.1 申请日: 2011-11-18
公开(公告)号: CN102521202B 公开(公告)日: 2017-05-24
发明(设计)人: 王红兵;李文雅 申请(专利权)人: 东南大学
主分类号: G06F15/18 分类号: G06F15/18
代理公司: 南京天翼专利代理有限责任公司32112 代理人: 朱戈胜
地址: 211189 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 复杂 系统 中的 maxq 任务 结构 自动 发现 方法
【权利要求书】:

1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法,强化学习模型是如下:

假设Agent与环境的交互发生在一系列的离散时刻t=0,1,2,…;在每个时刻t,Agent通过观察环境得到状态st∈S;Agent按策略π选择探索动作at∈A并执行;在下一时刻t+1,Agent收到环境给与的强化信号即报酬值rt+1∈R,并达到新状态st+1∈S;根据强化信号rt+1,Agent改进策略π;

强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬Vπ(S)最大或最小,所述其中γ为报酬折扣因子;由于环境的状态转移具有随机性,因此,在策略π的作用下,状态st的值:其中P(st+1|st,at)为环境的状态转移概率;

其特征是本自动发现方法的步骤包括:

(1)首先采用Q-learning探索环境,搜集动作影响的状态变量;

(2)调用基于动作执行效果的聚类算法,这种策略是以数据对象作为原子类,然后将这些原子类进行聚合;逐步聚合成越来越大的类,直到满足终止条件;聚类算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止;其时间和空间复杂性均为O(n2);通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态;

(3)得出分层任务图。

2.根据权利要求1所述的面向复杂系统中的MAXQ任务图结构的自动发现方法,其特征是

首先采用Q-learning探索环境,搜集动作影响的状态变量,搜集的信息包括:

状态Si在执行动作ai后状态Si中状态变量的改变;状态Si在执行动作ai后指向的下一个状态Si’,将Si->ai->Si’这一执行序列记录下来;

将获取的信息表示为Xk(i)={[Sk,ai,Sk’],Att},其中Att记录了状态Sk在执行动作ai后状态Sk中状态变量的改变情况,[Sk,ai,Sk’]则是记录状态Sk在执行动作ai后指向的下一个状态Sk’这一动作;根据MDP已知有n个动作,p个状态,每个动作都可以作用在p个不同的系统状态上,那么将MDP问题映射到聚类模型中,就是已知n个数据对象,也就是聚类对象,每个对象都有p个实数的测量值;

表示第i个对象的观测向量的方法如下:

X(i)={X1(i),X2(i),…,Xp(i)},1<=i<=n,其中X(i)表示第i个对象的观测向量集合,也就是第i个动作ai作用在p个不同状态上的观测集合,该集合里的每一个元素表示动作ai作用在某个状态上的观测向量;

用d(i,j)表示两个数据对象之间的相异性,并满足以下三个条件的不相似尺度:

对于所有的i和j,d(i,j),并且当且仅当i=j时d(i,j)=0;

对于所有的i和j,d(i,j)=d(j,i);

对于所有的i,j和k,d(i,j)<=d(i,k)+d(k,j);

那么对象之间的欧式距离Euclidean distance被定义为:

<mrow><mi>d</mi><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><msubsup><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>p</mi></msubsup><msup><mrow><mo>(</mo><mrow><msub><mi>x</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>x</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow>

这个尺度是以变量间的同一尺度为前提的,如果变量在不同的尺度下,则需要引入数据标准化策略,即用样本的标准差除以每一个变量,以便使所有的变量都可以被看做是具有同等的重要性;

第k个变量的xk标准差μk是xk的均值,于是可以消除尺度不同的影响。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110367593.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top