[发明专利]一种基于元强化学习的导航迁移方法有效
| 申请号: | 202010025356.6 | 申请日: | 2020-01-10 |
| 公开(公告)号: | CN111260026B | 公开(公告)日: | 2022-07-05 |
| 发明(设计)人: | 陶小林;陈甜;甘涛;葛树志;刘渠慧 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G01C21/20 |
| 代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 杨浩林 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 导航 迁移 方法 | ||
1.一种基于元强化学习的导航迁移方法,其特征在于,包括以下步骤:
S100、生成n个不同的虚拟训练环境,各虚拟训练环境中均初始化有一个导航目标;
S200、从n个不同的虚拟训练环境中随机选择b个虚拟训练环境,分别作为b个当前虚拟训练环境,b≥1,对于每个当前虚拟训练环境,均在其中的随机位置初始化一个虚拟训练机器人;
S300、构建无模型的元强化学习网络框架,所述元强化学习网络框架由依次连接的图像特征提取处理层以及元强化学习网络构成,所述元强化学习网络包括LSTM网络、交互损失计算和导航损失计算;
S400、使各虚拟训练机器人与各自所在当前虚拟训练环境交互,利用各虚拟训练机器人观察到的图片训练更新所述元强化学习网络框架,若所述元强化学习网络框架收敛,则继续执行步骤S500,否则跳转至步骤S200;
S500、保存收敛后的元强化学习网络框架,构建现实环境/新虚拟环境,所述现实环境和所述新虚拟环境均设置有导航目标及应用机器人;
S600、将收敛后的元强化学习网络框架迁移至现实环境/新虚拟环境中的应用机器人的导航系统中,应用机器人不断将其观察到的图片输至收敛后的元强化学习网络框架,继而不断的获得导航任务策略,应用机器人根据导航任务策略执行动作,直至到达其所在环境的导航目标,导航结束;
所述交互损失是根据交互条件进行计算,所述交互条件仅为LSTM网络输出的策略,或者为LSTM网络输出的策略与隐藏状态的结合;所述隐藏状态为隐向量,指的是导航过程中机器人指定要找到某个物体;所述导航损失是根据元强化学习网络框架中AC算法的损失计算;
交互指的是机器人在其所处环境,按照当前输入的策略,朝该环境中的导航目标移动,并不断的获取环境图片;
所述步骤S400中,当元强化学习网络的损失函数收敛,则元强化学习网络框架收敛,元强化学习网络框架的训练更新过程包括交互损失更新过程和导航损失更新过程;
所述交互损失更新过程包括:
对于每个虚拟训练机器人,其与其所在当前虚拟训练环境交互;
虚拟训练机器人每移动K步,进行一次更新,K>1,且每次更新过程包括:
获取当前图片,将当前图片输入元强化学习网络框架的图像特征提取处理层,提取图片的特征映射信息,将特征映射信息输至LSTM网络中,输出策略和状态估值,虚拟训练机器人根据策略执行动作,并得到奖励,根据奖励、状态估值、策略计算虚拟训练机器人与其所在环境的交互损失,利用该交互损失更新图像特征提取处理层和元强化学习网络的参数;
所述导航损失更新过程包括:
将各虚拟训练机器人与对应当前虚拟训练环境的交互损失求和得到导航损失,利用导航损失更新图像特征提取处理层和元强化学习网络的参数;
虚拟训练机器人在当前虚拟训练环境中的交互过程,是其移动到达导航目标的过程,或者是其移动阈值P步后仍未到达导航目标的过程。
2.根据权利要求1所述基于元强化学习的导航迁移方法,其特征在于,所述环境的构成因子包括墙面纹理、地面纹理、障碍物形状、障碍物尺寸、障碍物纹理、导航目标形状、导航目标尺寸和导航目标纹理。
3.根据权利要求1所述基于元强化学习的导航迁移方法,其特征在于,所述步骤S300中,图像特征提取处理层用于处理机器人在每个状态观察到的图像,其结构为resnet18加全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010025356.6/1.html,转载请声明来源钻瓜专利网。





