[发明专利]基于免疫耐受机制的强化学习算法有效

申请号：	201310073506.0	申请日：	2013-03-07
公开（公告）号：	CN103218655A	公开（公告）日：	2013-07-24
发明（设计）人：	王磊;黑新宏;金海燕;林叶;王玉	申请（专利权）人：	西安理工大学
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/08
代理公司：	西安弘理专利事务所 61214	代理人：	李娜
地址：	710048***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于免疫耐受机制强化学习算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于免疫耐受机制的强化学习算法，其特征在于：

首先，设计TD(λ)的基函数向量及权值向量；

然后，根据浮点数对权值向量进行编码，当系统与真实环境的误差大于一定阈值时，看成是人工免疫系统中的初次应答，初次碰到该环境，使用免疫耐受机制进行优化，并使用记忆体即抗体，对环境知识进行记忆；接着根据当前系统参数选择最优策略，根据环境的回馈奖赏值r来更新系统参数，继续下一次迭代；当系统与真实环境的误差小于该阈值时，则认为遇到了相似环境，将之看成是人工免疫系统中的二次应答，直接根据系统参数，由系统判断动作选择，选择最优策略。

2.如权利要求1所述的基于免疫耐受机制的强化学习算法，其特征在于：具体步骤如下，

步骤1：初始化参数；设置种群规模，折算率，修正参数，免疫概率，变异概率，学习率采用如下公式；

其中L_initial=0.01，常数C=1000；

值函数逼近采用两层前向回馈的神经网络，第一层采用tansig函数，第二层采用purelin函数，权值W为一组随机值；

步骤2：初始化动作集；设置起始状态，适应度轨迹；

步骤3：当学习系统与真实环境的误差大于一定阈值E_max时，使用免疫来优化学习系统，跳转到步骤4，否则跳转到步骤9；

步骤4：对已有的个体，按照如下公式进行克隆选择，即通过高斯变异的方式来进行克隆，扩展种群至种群规模为N；

W_population(i)＝W_current(i)+N(μ,σ)

其中，W_population为种群中的个体权值，W_current为当前个体的权值，i表示个体的基因位置，μ为均值，σ为标准差；

步骤5：从种群中选择最优个体，并将该最优个体整体看成疫苗；最优个体的判定是通过误差最小进行判断的；

步骤6：以一定的免疫概率，对种群中的个体执行免疫操作，进行疫苗注射；

步骤7：以一定的变异概率，对种群中的个体执行高斯变异；