[发明专利]一种基于深度强化学习的移动机器人视觉导航方法及装置有效
申请号: | 202210085265.0 | 申请日: | 2022-01-25 |
公开(公告)号: | CN114526738B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 张仪;冯伟;王卫军;朱子翰 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06V10/40;G06V10/82;G06N3/0442;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 移动 机器人 视觉 导航 方法 装置 | ||
1.一种基于深度强化学习的移动机器人视觉导航方法,其特征在于,包括以下步骤:
构建具有多种场景的场景地图;
移动机器人在所述场景地图中移动,并在所述场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的所述图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
在所述场景地图中的单场景中构建深度强化学习模型,将所述图像特征及目标点位置输入所述深度强化学习模型,并通过设计奖励函数进行所述深度强化学习模型的训练,输出所述移动机器人连续的线速度以及角速度;
将各个所述单场景中所述移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各所述单场景的连通位置作为中间目标点,导航所述移动机器人到达目标点位置;
所述将各个所述单场景中所述移动机器人学习到的策略存储到数据库中,在穿越多种场景时对应使用,将各所述单场景的连通位置作为中间目标点,直到到达目标点位置具体为:
将所述移动机器人在单场景中动作存储到数据库中;
在所述场景地图中,根据所述移动机器人的位置及所述图像特征确定所处场景;
从所述数据库中调取对应动作,以根据所述对应动作实现导航至所述目标点位置;
在所述从所述数据库中调取对应动作,以根据所述对应动作实现导航至所述目标点位置之前还包括:
判断所述移动机器人的起点与终点是否位于同一所述单场景;
若是同一所述单场景,则直接从对应的所述单场景的所述数据库中选取动作,所述移动机器人根据所述选取动作移动至目标点;
在所述判断所述移动机器人的起点与终点是否位于同一所述单场景之后还包括:
若不是同一所述单场景,则判断所述移动机器人是否需要穿越其它所述单场景才能到达目标;
若不用穿越其它所述单场景,则确定当前单场景与目标单场景间的中间目标点,从单场景的数据库中选取动作,所述移动机器人根据选取的动作到达所述中间目标点,继续判断所述移动机器人的起点与终点是否位于同一所述单场景,直至所述移动机器人根据所述选取动作移动至目标点;
若需要穿越其它所述单场景,则确定当前单场景与要穿越的单场景之间的中间目标点,从对应单场景的所述数据库中取动作到达中间目标点,继续判断所述移动机器人的起点与终点是否位于同一所述单场景,直至所述移动机器人根据所述选取动作移动至目标点。
2.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,所述构建具有多种场景的场景地图具体为:
基于gazebo仿真平台构建具有多种场景的所述场景地图。
3.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,在所述场景地图中的单场景中构建PPO深度强化学习模型。
4.根据权利要求1所述的基于深度强化学习的移动机器人视觉导航方法,其特征在于,所述奖励函数为:
其中,所述奖励函数的含义为:当移动机器人到达目标,即可获得100的奖励,若在导航过程中发生碰撞,给予-50的碰撞奖励;导航过程中,为了以最短距离到达目标,将与目标的距离Δd乘一个系数C1,作为距离奖励;为了以最快速度到达目标,将移动机器人的线速度Cv乘一个系数C2,作为速度奖励;为了以平滑的路径到达目标,限制移动机器人的角速度Cw,将其乘一个系数C3作为转弯奖励;为了以较短步数到达目标,加入步长奖励C4。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210085265.0/1.html,转载请声明来源钻瓜专利网。