[发明专利]基于因果图的分层强化学习任务图进化方法无效
申请号: | 201110369847.3 | 申请日: | 2011-11-18 |
公开(公告)号: | CN102521203A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 王红兵;周建才 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18;G06N3/12 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 朱戈胜 |
地址: | 210089 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 因果 分层 强化 学习 任务 进化 方法 | ||
1.一种基于因果图的分层强化学习任务图进化方法,其特征是步骤包括:
(1)参数设置;
(2)探索目标环境的因果图;
(3)种群N初始化;
(4)计算适应度值;
(5)遗传操作,包括选择、交叉和变异;操作时保持结点之间的因果关系;
(6)判断是否终止;
(7)保存此因果图对应的k个适应度最高的任务图G1,G2,…,GK;
(8)输出适应度最高的任务图G1。
2.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是步骤1)中,进行进化的参数设置,包括种群规模、最大迭代次数、交叉概率和变异概率。
3.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤3)中,进行种群M的初始化:
已知层次图种群U1:HI-MAT构造出的现有环境的任务图,如数量少于一个阀值,则进行单亲繁殖,繁殖时保持因果依赖性;
随机生成图种群U2:随机构造的任务图,包括从包含所有原子动作的任务图到包含所有合成子任务的任务图;
M=U1+U2,M指初始化后生成的种群。
4.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤4)中,计算适应度值:
Fitness(g)=total-reward(g)/steps:运行种群中的任务图,计算各个体的适应度。
5.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述步骤5)中,
选择:对适应度高的个体以更大的概率进行复制,各个体被选择进行复制的概率选择复制后生成N个个体;
交叉:随机选择N*Pc个个体进行交配,每对个体通过交配产生两个新个体,代替原来的“老”个体,而不参与交配的个体则保持不变;对于两个父个体,其子任务节点的交换时保持因果依赖性;
变异:随机选择N*Pm个个体的基因进行变异操作;
变异策略:随机选择个体的若干个子任务结点,对这些结点进行以下三种变换中的一种:
将结点用随机产生且保持父子任务结点的因果依赖关系的结点进行替换;
重新产生新的子树来替代旧子树并保持因果依赖性;
交换结点的左右子树,更新M。
本步骤中,Pc指交叉概率,Pm指变异概率,在参数设置时进行设置。
6.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是所述6)中,判断是否终止的终止条件:执行次数大于n次且适应度最高的k个个体结构一样且适应度高的一半个体和此k个个体的距离<a;未满足终止条件则转步骤3)。
7.根据权利要求1所述的特征是所述的基于因果图的分层强化学习任务图进化方法,其特征是交叉时,根据各个体的距离,进行远亲杂交。
8.根据权利要求1所述的基于因果图的分层强化学习任务图进化方法,其特征是当目标环境的因果图逐渐变化时,需要调整算法适用这种动态变化的情况:采用保存先前学习的因果图的对应k个适应度最高的任务图,利用这种记忆机制加快学习;
处理变化的目标环境的步骤是:(a)当任务图的学习性能下降了一个阈值时,启动DBN学习算法;(b)构造因果图;(c)此因果图和先前保存的因果图进行比较,选择相同或最相似的因果图对应的k个适应度最高的任务图;(d)将此k个任务图加入初始种群并重新启动任务图进化学习算法;(e)使用进化后的任务图执行任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110369847.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有偏置铰链的橱柜
- 下一篇:一种基于燃料电池的热电联供系统