[发明专利]一种基于深度强化学习的移动机器人视觉导航方法及装置有效
申请号: | 202210085265.0 | 申请日: | 2022-01-25 |
公开(公告)号: | CN114526738B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 张仪;冯伟;王卫军;朱子翰 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G01C21/20 | 分类号: | G01C21/20;G06V10/40;G06V10/82;G06N3/0442;G06N3/08 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 移动 机器人 视觉 导航 方法 装置 | ||
本发明涉及机器视觉导航领域,具体涉及一种基于深度强化学习的移动机器人视觉导航方法及装置,本发明方法基于深度强化学习方法,以图像、深度图像、目标点位置为输入,可实现在多种场景混合的大空间下进行导航,提升了基于深度强化学习的移动机器人视觉导航技术的导航能力;此外,本发明通过设计移动机器人速度及移动机器人与目标距离相关的奖励函数,使深度强化学习模型的训练能够快速收敛;本发明可提高深度强化学习方法在复杂大场景下的导航能力,解决奖励稀疏问题,加快模型收敛速度,提高在复杂大场景下的导航性能。
技术领域
本发明涉及机器视觉导航领域,具体而言,涉及一种基于深度强化学习的移动机器人视觉导航方法及装置。
背景技术
基于深度强化学习的复杂大场景下的移动机器人视觉导航方法,以当前观测得到的图像及目标信息为输入,输出连续动作使智能体避开障碍,以较短路径到指定位置。目前基于深度强化学习的移动机器人视觉导航技术主要有以下两大问题:一是大空间下的视觉导航性能偏弱,二是同时在多种不同场景进行导航有难度。
目前技术比较成熟且应用较为广泛的定位技术为全球定位系统定位技术,这种定位技术的定位方法是车辆、手机等移动设备通过搭载GPS模块实现对自身的定位,从而实现导航。但此种技术在室内会出现信号偏弱,定位不准等问题,导致导航效果不佳,无法实现在室内外同时进行导航的目标;此外,移动机器人导航技术应用较多使用基于激光雷达导航的技术和基于视觉导航的技术,通过激光雷达和视觉传感器完成同时定位与建图,实现移动机器人的导航;但激光雷达成本较高,也无法识别物体;而视觉传感器造价低,可通过图像对周围环境有一个清楚的认知。
现有的技术没有充分融合图像中的深度信息,对未知场景目标的泛化能力、避障能力较差,且对深度强化学习的奖励函数设计较简单,极易出现奖励稀疏问题,导致移动机器人极难到达目标点,导致训练收敛速度变慢,另外在复杂的大空间下导航性能大大减弱。
因此,越来越多的研究人员将精力投入到基于深度强化学习的移动机器人的视觉导航中来,只需简单输入当前移动机器人观测到的图像以及目标点位置,即可以较短路径无碰撞的到达指定位置。
发明内容
本发明实施例提供了一种基于深度强化学习的移动机器人视觉导航方法及装置,以提高机器人在复杂的多场景下的快速导航性能。
根据本发明的一实施例,提供了一种基于深度强化学习的移动机器人视觉导航方法,包括以下步骤:
构建具有多种场景的场景地图;
移动机器人在场景地图中移动,并在场景地图中收集当前观测到的图像以及目标点位置信息,将当前观测到的图像以及目标点位置信息,设计卷积神经网络并提取出图像特征;
在场景地图中的单场景中构建深度强化学习模型,将图像特征及目标点位置输入深度强化学习模型,并通过设计奖励函数进行深度强化学习模型的训练,输出移动机器人连续的线速度以及角速度;
将各个单场景中移动机器人学习到的动作存储到数据库中,在穿越多种场景时对应使用,将各单场景的连通位置作为中间目标点,导航移动机器人到达目标点位置。
进一步地,构建具有多种场景的场景地图具体为:
基于gazebo仿真平台构建具有多种场景的场景地图。
进一步地,在场景地图中的单场景中构建PPO深度强化学习模型。
进一步地,奖励函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210085265.0/2.html,转载请声明来源钻瓜专利网。