[发明专利]一种基于深度安全强化学习的机器人无地图导航方法有效
| 申请号: | 202110250387.6 | 申请日: | 2021-03-08 |
| 公开(公告)号: | CN113093727B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 吕少华;李衍杰;许运鸿;刘奇;陈美玲;赵威龙;刘悦丞;庞玺政 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
| 地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 安全 强化 学习 机器人 地图 导航 方法 | ||
本发明具体涉及一种基于深度安全强化学习的机器人无地图导航方法,具体包括:初始化训练环境,设计移动机器人奖励函数和安全风险代价函数;利用传感器检测的图像信息和激光雷达信息,结合移动机器人的目标信息和运动信息,将各状态信息进行处理后经Actor网络输出决策动作到机器人,机器人执行Actor网络输出的动作,从环境中得到下一时刻新的状态观测及奖励信息,将机器人与环境交互得到的经验存入经验池,定期更新网络参数;判断是否训练结束,将训练好的模型应用于真实移动机器人进行导航。本发明基于演员‑评论家‑安全(ACS)框架的深度安全强化学习,通过引入约束性策略优化(CPO)算法,提升了强化学习用于无地图导航任务的安全性。
技术领域
本发明涉及机器人无地图导航领域,具体涉及一种基于深度安全强化学习的机器人无地图导航方法。
背景技术
机器人导航是指机器人从当前初始位置到达目标位置,并且在此过程中不和其他静态或动态障碍物发生碰撞的技术。近年来,机器人导航技术广泛应用于扫地机器人、服务机器人、物流机器人、特种救援机器人和火星探索机器人等领域。导航中的安全性主要体现在避免碰撞的能力。
有地图与无地图相比:目前比较成熟的导航技术基本是基于SLAM建图的有地图导航,然而像野外搜索救援等特种机器人在执行任务时,环境往往是未知的,此时就无法建图;有地图导航基于SLAM建图后,当环境随时间变化或者机器人每到一个新环境时需要重新建图;人类可在仅知道目标大致方位,在没有精确地图的情况下穿越障碍物前往目的地,也能在从未见过的新环境中导航,是因为人类学习到了环境的内部表征。基于深度强化学习的无地图导航能让机器人学习到类似的内部表征,对复杂动态未知环境有一定适应能力。
基于深度强化学习的无地图导航与传统的基于Bug算法的无地图导航相比:Bug算法无法学习到环境的内部表征,没有自学习能力,所规划的路径往往不是最优的,而且无法利用视觉特征进行导航;基于深度强化学习的无地图导航可在与环境的交互中学习到环境的内部表征,有一定的自学习能力,规划的路径相比利用Bug算法规划的路径要更接近于最优路径,还可以通过物体的视觉特征进行导航。
虽然强化学习在游戏和控制等领域应用比较成功,然而大部分强化学习工作是基于仿真平台进行开发的,在真实移动机器人上用的较少,原因是强化学习学到的策略不能保证是安全的,从而可能造成严重后果。而在无人驾驶等领域,安全性是关键也是最基本的要求,因此要考虑强化学习的安全性。
发明内容
本发明针对上述问题,将约束型策略优化(Constrained Policy Optimization,CPO)算法这样一种安全强化学习方法引入无地图导航,从而进一步提升基于深度强化学习的无地图导航过程中的安全性。
为了解决上述技术问题,本发明采用的技术方案是:提供一种基于深度安全强化学习的机器人无地图导航方法,该方法包括以下步骤:
S1:初始化训练环境,设置移动机器人参数,根据训练环境设计移动机器人奖励函数和安全风险代价函数;
S2:将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入,Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人;
S3:移动机器人执行Actor神经网络输出的动作,然后从环境中得到下一时刻新的观测信息和奖励信息;
S4:将移动机器人与环境交互得到的经验存入经验池,所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统,当所述经验池存满或者设置定期,对ACS神经网络系统参数进行更新;
S5:判断训练步数是否达到设定阈值,若未达到设定阈值,则返回S2继续循环执行,若训练步数达到设定阈值,则训练结束,将训练结束后的模型应用于真实移动机器人进行导航。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110250387.6/2.html,转载请声明来源钻瓜专利网。





