[发明专利]一种基于强化学习和好奇心的迷宫机器人路径规划方法在审
申请号: | 202210412829.7 | 申请日: | 2022-04-19 |
公开(公告)号: | CN114721397A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 张晓平;刘翼豪;王力;李凯;杨天航;吴宜通;孟祥鹏;郑远鹏 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100144 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 好奇心 迷宫 机器人 路径 规划 方法 | ||
1.一种基于强化学习和好奇心的迷宫机器人路径规划方法,其特征在于包括:
(1)强化学习
采用Q-learning,将节点作为状态,即S={Nk|k=1,2,3…n};奖励设置如下:
其中,rc为好奇心内在奖励;r为强化学习奖励;可选动作指相对于移动机器人第一次到达某一节点时,除回退动作之外的动作为可选动作;即,当下一节点无法转移到另一新节点,而只可回退到上一节点时,强化学习奖励r=-100;
动作A={ai|i=1,2,3…p},分别为将机器人正面朝向转到地图的东,西,南,北方向;其中,Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+α[r+maxQ(Nk+1,a′)]
其中,Nk为某一节点;ai为当前节点下所执行的动作;Q(Nk,ai)为节点Nk下的动作ai的Q值;α为学习率设置为0.8;r为获得的强化学习奖励;Nk+1为下一节点,maxQ(Nk+1,a′)为下一节点中的各个动作的最大Q值;a′为下一节点最大Q值的动作;
(2)好奇心算法:
1、前向网络
采用BP网络,设有3个隐含层,输入层神经元数量为2个,3个隐含层神经元数量均为33个,输出层神经元数量为5个,每一层的激活函数均为logistic函数;BP网络的权值初始化为[0,1]随机数值;其输入为两个值分别为节点以及动作,即[Nk,ai];输出为五个值,即下一节点以及下一节点各个方向可通行情况,可通行数值接近1,不可通行为数值接近0;其损失函数如下:
其中,其中为联想记忆网络输出y′中的值其物理含义与BP网络输出相同;
2、联想记忆网络
联想记忆网络,用来记录在某一节点下选择某一动作所对应的下一节点以及下一节点的可通行情况;网络只有一层输入和一层输出,没有隐含层;
输入为1×m的矩阵,其中m=n×p,n,p分别为节点个数和动作数;输入矩阵包含节点Nk以及动作ai信息,其中节点Nk由矩阵中的某p列表示;而在表示Nk的p列元素中,自左向右数第i个元素为1,且只有1个元素为1,用来表示动作ai;
由[Nk,ai]编码为的公式如下:
j=p×(Nk-1)+ai
根据上述公式得到第j列元素为1,进而得到编码后的
矩阵中只有一个元素为1,其余均为0,第j列元素为1则Nk及ai表达式如下:
其中j为矩阵Mm的元素1所在列数;p为动作数;
输出为5个值,下一节点和移动机器人到达下一节点的四个方向的情况,即其中N′k+1为下一节点,为下一节点各个方向可通行情况,可通行为数值1,不可通行为数值0;在进行动作选择时,仅选取当前节点数值为1的方向并执行动作;方向和动作[a1,a2,a3,a4]是一一对应的;
联想记忆网络的初始权值Wlm为l×m的0矩阵,权值矩阵更新公式如下:
其中y′为联想记忆网络的输出矩阵,为联想记忆网络的输入矩阵;
3、内部奖励
内部奖励设置为前向网络和联想记忆网络的输出误差;好奇心奖励函数与损失函数计算过程相同;
rc表示动作ai的好奇心奖励;有效的好奇心奖励才会被运用,好奇心奖励有效性判别与某一节点的好奇度有关,好奇度公式如下:
其中为智能体在节点Nk传感器所检测到的四个方向的可通行情况,方向可通行则数值为1,方向有障碍物不可行则数值为0;maxQ(Nk+1,a)为节点Nk下的各个动作Q值的最大Q值;rc表示动作ai的好奇心奖励;
当时,此节点的好奇度下降,此时动作的好奇心值记为无效;
(3)回溯强化
当智能体到达目的地时,则本轮探索结束;智能体根据联想记忆从终点出发,进行推理回溯,每个节点和相应的动作都不是得到相同的强化,而是按顺序递减;进行回溯强化时Q值更新公式如下:
Q(Nk,ai)=(1-α)Q(Nk,ai)+αmaxQ(Nk+1,a′)
当连续两次进行回溯强化时,不存在好奇度大于1的节点,则不再进行迭代学习,程序结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210412829.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:螺旋脊人工血管及其制备方法
- 下一篇:一种红外碳硫分析仪石英燃烧管的清洗方法