[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效

申请号：	201110367593.1	申请日：	2011-11-18
公开（公告）号：	CN102521202B	公开（公告）日：	2017-05-24
发明（设计）人：	王红兵;李文雅	申请（专利权）人：	东南大学
主分类号：	G06F15/18	分类号：	G06F15/18
代理公司：	南京天翼专利代理有限责任公司32112	代理人：	朱戈胜
地址：	211189 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向复杂系统中的 maxq 任务结构自动发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向复杂系统中的MAXQ任务图结构的自动发现方法，强化学习模型是如下：

假设Agent与环境的交互发生在一系列的离散时刻t＝0，1，2，…；在每个时刻t，Agent通过观察环境得到状态s_t∈S；Agent按策略π选择探索动作a_t∈A并执行；在下一时刻t+1，Agent收到环境给与的强化信号即报酬值r_t+1∈R，并达到新状态s_t+1∈S；根据强化信号r_t+1，Agent改进策略π；

强化学习的最终目标是寻找到一个最优策略使得Agent获得的状态值即该状态所获得的总报酬V^π(S)最大或最小，所述其中γ为报酬折扣因子；由于环境的状态转移具有随机性，因此，在策略π的作用下，状态s_t的值:其中P(s_t+1|s_t,a_t)为环境的状态转移概率；

其特征是本自动发现方法的步骤包括：

(1)首先采用Q-learning探索环境，搜集动作影响的状态变量；

(2)调用基于动作执行效果的聚类算法，这种策略是以数据对象作为原子类，然后将这些原子类进行聚合；逐步聚合成越来越大的类，直到满足终止条件；聚类算法的过程为：在初始时，每一个成员都组成一个单独的簇，在以后的迭代过程中，再把那些相互邻近的簇合并成一个簇，直到所有的成员组成一个簇为止；其时间和空间复杂性均为O(n²)；通过凝聚式的方法将两簇合并后，无法再将其分离到之前的状态；

(3)得出分层任务图。

2.根据权利要求1所述的面向复杂系统中的MAXQ任务图结构的自动发现方法，其特征是

首先采用Q-learning探索环境，搜集动作影响的状态变量，搜集的信息包括：

状态S_i在执行动作a_i后状态S_i中状态变量的改变；状态S_i在执行动作a_i后指向的下一个状态S_i’，将S_i->a_i->S_i’这一执行序列记录下来；

将获取的信息表示为X_k(i)＝{[S_k,a_i,S_k’],Att}，其中Att记录了状态S_k在执行动作a_i后状态S_k中状态变量的改变情况，[S_k,a_i,S_k’]则是记录状态S_k在执行动作a_i后指向的下一个状态S_k’这一动作；根据MDP已知有n个动作，p个状态，每个动作都可以作用在p个不同的系统状态上，那么将MDP问题映射到聚类模型中，就是已知n个数据对象，也就是聚类对象，每个对象都有p个实数的测量值；

表示第i个对象的观测向量的方法如下：

X(i)＝{X₁(i),X₂(i),…,X_p(i)},1<＝i<＝n，其中X(i)表示第i个对象的观测向量集合，也就是第i个动作a_i作用在p个不同状态上的观测集合，该集合里的每一个元素表示动作a_i作用在某个状态上的观测向量；

用d(i,j)表示两个数据对象之间的相异性，并满足以下三个条件的不相似尺度：

对于所有的i和j，d(i,j)，并且当且仅当i＝j时d(i,j)＝0；

对于所有的i和j，d(i,j)＝d(j,i)；

对于所有的i，j和k，d(i,j)<＝d(i,k)+d(k,j)；

那么对象之间的欧式距离Euclidean distance被定义为：

$<mrow><mi>d</mi><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>(</mo><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>p</mi></msubsup><msup><mrow><mo>(</mo><mrow><msub><mi>x</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>x</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>)</mo></mrow><mrow><mn>1</mn><mo>/</mo><mn>2</mn></mrow></msup></mrow>$

这个尺度是以变量间的同一尺度为前提的，如果变量在不同的尺度下，则需要引入数据标准化策略，即用样本的标准差除以每一个变量，以便使所有的变量都可以被看做是具有同等的重要性；

第k个变量的x_k标准差μ_k是x_k的均值，于是可以消除尺度不同的影响。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110367593.1/1.html，转载请声明来源钻瓜专利网。

上一篇：具有补偿转换元件的发光二极管和相应的转换元件
下一篇：基于代理跨平台的无线网络接入控制器板间通信方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向复杂系统中的MAXQ任务图结构的自动发现方法有效

专利文献下载