[发明专利]一种端到端的机器人视觉-运动导航方法在审
申请号: | 202011588087.0 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112799401A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 陈逸东;魏武 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 511458 广东省广州市南沙区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 机器人 视觉 运动 导航 方法 | ||
本发明公开了一种端到端的机器人视觉‑运动导航方法,包括以下步骤:(1)机器人在室外环境下通过机器人的RGB摄像头拍摄视频,再以指定的时间间隔截取视频中的帧进行命名保存;(2)构造端到端视觉运动模型;(3)对所述模型进行训练,并通过所述模型调优得到最终满足满足要求的网络模型;(4)将满足要求的网络模型部署在机器人上,进行目标检测及可通达地图的构建。本发明实现利用单目图像直接输出控制策略。增加避障语义分支作为辅助分支,增加模型预训练的数据量,同时利用多损失函数强迫视觉‑运动分支形成内在的避障语义理解,实现更精确平滑的导航决策。
技术领域
本发明涉及计算机视觉,深度学习,机器人视觉定位导航技术领域,特别是涉及一种端到端的机器人视觉-运动导航方法。
背景技术
传统的视觉运动问题中视觉算法与运动控制算法相互独立,无法形成从视觉到运动的闭环系统。在传统基于视觉的导航问题中,遵循着三个步骤:视觉信息提取、路径规划与运动控制。视觉信息提取环境中的关键信息,如利用视觉SLAM进行构图和定位;路径规划根据所构建地图,采用路径规划算法获取运动目标。运动控制的目的在于设计控制器最小化误差,实现平滑快速的运动决策。三个模块相互独立,各模块中的算法独立设计(CN111912411A)。
三步式导航算法为一个开环结构,上游算法的误差容易被下游算法放大。仅在控制器内部形成闭环控制,误差无法反馈到视觉信息提取模块中。视觉算法与运动算法的分离与独立,会造成两者运算与传递时延累积,使控制算法过分滞后于视觉算法,即手不跟眼现象。过渡解耦的算法设计还造成算法的联合调试困难。
发明内容
为了克服上述现有技术的不足,本发明提出了一种基于深度学习的视觉-运动的端对端导航系统,设计实现从视理解到运动控制指令直接映射的神经网络。同时增加避障语义地图构建辅助分支,为运动决策提供显性的避障地图信息,该分支的联合训练能内在地引导视觉-运动分支在运动决策时进行充分的避障考虑。
本发明至少通过如下技术方案之一实现。
一种端到端的机器人视觉-运动导航方法,所述方法包括以下步骤:
(1)机器人在室外环境下通过机器人的RGB摄像头拍摄视频,再以指定的时间间隔截取视频中的帧进行命名保存,以此作为自建数据集;
(2)构造基于深度学习的端到端视觉运动模型;
(3)对所述模型进行训练,并通过所述模型调优得到最终满足满足要求的网络模型;
(4)将满足要求的网络模型部署在机器人上,进行目标检测及可通达地图的构建。
优选的,所述端到端视觉运动模型包括特征提取骨干网络、视觉-运动控制映射分支、避障语义地图构建分支。
优选的,所述特征提取骨干神经网络基于VGG16,采用层叠的卷积神经网络。
优选的,所述特征提取骨干网络包括H层神经网络,其中h层为卷积神经网络,中间插入n次最大池化操作。
优选的,所述视觉-运动控制映射分支包括n层卷积神经网络、n+1层最大池化层、Dropout层、全连层与分类输出Softmax层。
优选的,所述避障语义地图构建分支根据当前帧对全幅图像进行像素分类;所述避障语义地图构建分支采用基于DeepLab v3的语义分割框架,利用ASPP(Atrous SpatialPyramid Pooling)进行特征融合与加强。
优选的,步骤(3)采用使用Cityscape开源数据集和自建数据集对所述端到端视觉运动模型进行训练。
优选的,步骤(3)中的模型训练分成预训练和模型调优两个阶段。
优选的,步骤(3)的训练包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011588087.0/2.html,转载请声明来源钻瓜专利网。