[发明专利]基于免疫耐受机制的强化学习算法有效
申请号: | 201310073506.0 | 申请日: | 2013-03-07 |
公开(公告)号: | CN103218655A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 王磊;黑新宏;金海燕;林叶;王玉 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 李娜 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 免疫 耐受 机制 强化 学习 算法 | ||
1.基于免疫耐受机制的强化学习算法,其特征在于:
首先,设计TD(λ)的基函数向量及权值向量;
然后,根据浮点数对权值向量进行编码,当系统与真实环境的误差大于一定阈值时,看成是人工免疫系统中的初次应答,初次碰到该环境,使用免疫耐受机制进行优化,并使用记忆体即抗体,对环境知识进行记忆;接着根据当前系统参数选择最优策略,根据环境的回馈奖赏值r来更新系统参数,继续下一次迭代;当系统与真实环境的误差小于该阈值时,则认为遇到了相似环境,将之看成是人工免疫系统中的二次应答,直接根据系统参数,由系统判断动作选择,选择最优策略。
2.如权利要求1所述的基于免疫耐受机制的强化学习算法,其特征在于:具体步骤如下,
步骤1:初始化参数;设置种群规模,折算率,修正参数,免疫概率,变异概率,学习率采用如下公式;
其中L_initial=0.01,常数C=1000;
值函数逼近采用两层前向回馈的神经网络,第一层采用tansig函数,第二层采用purelin函数,权值W为一组随机值;
步骤2:初始化动作集;设置起始状态,适应度轨迹;
步骤3:当学习系统与真实环境的误差大于一定阈值Emax时,使用免疫来优化学习系统,跳转到步骤4,否则跳转到步骤9;
步骤4:对已有的个体,按照如下公式进行克隆选择,即通过高斯变异的方式来进行克隆,扩展种群至种群规模为N;
Wpopulation(i)=Wcurrent(i)+N(μ,σ)
其中,Wpopulation为种群中的个体权值,Wcurrent为当前个体的权值,i表示个体的基因位置,μ为均值,σ为标准差;
步骤5:从种群中选择最优个体,并将该最优个体整体看成疫苗;最优个体的判定是通过误差最小进行判断的;
步骤6:以一定的免疫概率,对种群中的个体执行免疫操作,进行疫苗注射;
步骤7:以一定的变异概率,对种群中的个体执行高斯变异;
步骤8:对种群中的各个个体进行误差判断,保留最优个体,替换原始个体;
步骤9:根据当前系统参数,选择当前状态的最优动作,并执行;即根据下面的公式,计算下一个所有可能状态的状态值,选择具有最大状态值的状态,跳转到该状态;
V(xt)=φ(xt)×Wt
步骤10:根据执行效果,得到奖赏值r;
步骤11:根据TD(λ)的迭代公式,更新权值W、适应度轨迹Z,迭代公式如下所示,
Wt+1=Wt+Lt×[rt+β×V(xt+1)-V(xt)]×Zt+1
其中,第一个公式表示权值向量随着时间的迭代公式,其值由当前状态值,当前状态的奖赏和下一时刻状态值折扣与当前状态值的差值以一定的学习率和适应度轨迹计算得到;第二个公式表示适应度轨迹随着时间的迭代公式,它由当前时刻的适应度轨迹以一定的比例,并加上状态值对权值的偏导得到;
步骤12:当还有下一可达状态,则进入下一个状态,跳转到步骤3;否则跳转到步骤13;
步骤13:当还需对学习系统进行训练,则进入下一次训练,跳转到步骤2;否则,停止学习系统的学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310073506.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水务企业的数据分析决策系统
- 下一篇:一种机器人情绪情感生成与表达系统