[发明专利]一种基于雷达与视觉多模态融合的具身语言导航方法有效
申请号: | 202110205655.2 | 申请日: | 2021-02-24 |
公开(公告)号: | CN113156419B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 刘华平;周方波;袁小虎;赵怀林 | 申请(专利权)人: | 清华大学 |
主分类号: | G01S13/86 | 分类号: | G01S13/86;G01S13/88;G01S13/93;G01C11/00;G01C21/00;G06V20/10;G06V10/44;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 雷达 视觉 多模态 融合 语言 导航 方法 | ||
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,属于机器人导航、自然语言处理和计算机视觉领域。该方法首先在带有双目相机的机器人上安装激光雷达,利用该机器人训练一个多模态融合神经网络模型。选取任一真实场景,对机器人下达自然语言导航指令并转化为对应语义向量;利用机器人在每个时刻获取的RGB图、深度图以及雷达信息,分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,机器人执行该动作直至完成导航任务。本发明可使机器人对真实环境具有良好的感知能力,提高避障导航的效率。
技术领域
本发明涉及机器人导航、自然语言处理和计算机视觉领域,是一种基于雷达与视觉多模态融合的具身语言导航方法。
背景技术
人们长期以来一直追求使用自然语言与计算机进行人机交互,因为它既有重要的理论意义,同时也有也有明显的实际意义。人类可以用自己习惯的自然语言使用计算机,而无需再花费大量的时间去学习各种复杂的计算机语言。当前,使用自然语言控制机器人进行自主导航正逐渐成为研究热点。研究者们希望未来可以通过自然语言控制机器人完成导航任务,而导航任务也是机器人其他复杂任务的基础,对发展人工智能有着重要的意义。
视觉语言导航是让机器人跟着自然语言指令进行导航,这个任务需要机器人同时理解自然语言指令与视角中可以看见的图像信息,然后在环境中对自身所处状态做出对应的动作,最终达到目标位置。当前的研究者们大多在仿真环境中提高机器人视觉语言导航的正确率,但是在现实场景中,由于环境的复杂,机器人在导航的过程中往往遇到障碍物的阻挡,仅仅依靠视觉和深度信息,机器人往往无法避开障碍物。况且由于双目相机通常安装在机器人的上方,因此机器人无法观测到脚下的障碍物。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于雷达与视觉多模态融合的具身语言导航方法。本发明可使机器人对真实环境具有良好的感知能力,提高其避障导航的效率。
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,其特征在于,该方法首先在带有双目相机的机器人的上安装激光雷达,并构建一个多模态融合神经网络模型;利用该机器人对该多模态融合神经网络模型进行训练,得到训练完毕的多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量;利用机器人在每个时刻分别获取的RGB图、深度图以及雷达信息,利用神经网络模型分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,通过解码得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,直至机器人完成导航任务。该方法包括以下步骤:
1)在带有双目相机的机器人的上安装激光雷达,激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;
2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,RGB图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络;利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型;
3)选取任一真实场景,将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置,记当前时刻t=1,给机器人下达自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S;该自然语言导航指令的内容包含导航任务的目的地;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110205655.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:报装接入点的优化方法及相关装置
- 下一篇:一种污染水体治理装置和治理方法