[发明专利]一种基于多模态特征的移动机器人视觉-语言导航方法在审
| 申请号: | 202210586122.8 | 申请日: | 2022-05-27 |
| 公开(公告)号: | CN115082915A | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 董敏;钟浩钊;毕盛 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06N3/04;G06N3/08;G06V10/75;G06V10/764;G06V10/774 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 特征 移动 机器人 视觉 语言 导航 方法 | ||
本发明公开了一种基于多模态特征的移动机器人视觉‑语言导航方法,包括:1)对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;2)对于当前时刻的输入图像进行编码,得到视觉特征向量;3)根据机器人的历史动作编码得到历史特征向量;4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码;5)将跨模态编码结果输入到动作决策模块,预测下一步动作并执行;6)重复步骤2)到步骤5)直到机器人停止移动,然后更新模型。本发明提供物体参考信息和历史导航信息,能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。
技术领域
本发明涉及移动机器人视觉-语言导航的技术领域,尤其是指一种基于多模态特征的移动机器人视觉-语言导航方法。
背景技术
近年来,移动机器人的工作场景和功能需求呈现出多样化和复杂化的趋势。自主导航功能是移动机器人完成其他复杂功能的基础,是最不可或缺的功能之一。目前广泛应用于移动机器人中的自主导航功能主要使用激光雷达实现,无法利用图像和语言等具有丰富特征的信息进行导航。如何让移动机器人理解图像和语言,并将其获得的视觉和语义信息利用到自主导航中成为亟需解决的问题。
视觉-语言导航是将自然语言与未知环境中非结构化的视觉信息联系起来的任务。例如,给定指令“Standing in front of the family picture,turn left and walkstraight through the bathroom past the tub and mirrors.Go through the doorwayand stop when the door to the bathroom is on your right and the door to thecloset is to your left.”,移动机器人需要理解上述指令并根据视觉输入进行导航。
以往的视觉-语言导航技术主要存在两个问题:一是使用的视觉特征缺乏对物体细节的描述,在上述例子中,以往使用的视觉特征只能帮助智能体理解其所在的位置是“bathroom”或是“doorway”,而无法捕获“picture”、“tub”、“mirrors”和“closet”等物体作为参考信息;二是导航过程缺乏整体的历史导航信息,机器人难以将自然语言指令和视觉图像进行匹配。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多模态特征的移动机器人视觉-语言导航方法,利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力,降低模型过拟合的风险。
为实现上述目的,本发明所提供的技术方案为:一种基于多模态特征的移动机器人视觉-语言导航方法,包括以下步骤:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量;
4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码,得到当前时刻的状态特征向量和视觉隐层表示;
5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中,得到动作概率分布,然后机器人根据动作概率分布选取下一步动作并执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210586122.8/2.html,转载请声明来源钻瓜专利网。





