[发明专利]一种基于场景融合知识的视觉语言导航方法、装置及介质在审

申请号：	202310087842.4	申请日：	2023-02-08
公开（公告）号：	CN116242359A	公开（公告）日：	2023-06-09
发明（设计）人：	谭明奎;罗宇成;刘飞;杜卿	申请（专利权）人：	华南理工大学
主分类号：	G01C21/20	分类号：	G01C21/20;G06T7/70;G06V20/00;G06V20/70;G06V10/82
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	郑宏谋
地址：	510641 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于场景融合知识视觉语言导航方法装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于场景融合知识的视觉语言导航方法、装置及介质，其中方法包括：获取视觉语言导航任务；根据视觉语言导航任务获取自然语言指令特征、场景特征和物体特征，使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重，使用场景中的物体标签检索出知识增强的物体特征；使用基于场景和知识感知的多模态决策模块，融合所述自然语言指令特征、场景特征和物体特征，进行动作预测并更新智能体的运行状态，直到智能体选择停下。本发明通过利用场景中物体和知识的语义和位置关系，使得场景特征和自然语言指令特征进行更好地对齐，并让智能体在有限的视觉观察和未见过的环境中能有效地导航。本发明可广泛应用于视觉语言导航技术领域。

技术领域

本发明涉及视觉语言导航技术领域，尤其涉及一种基于场景融合知识的视觉语言导航方法、装置及介质。

背景技术

随着近年来人工智能技术的发展和成熟，计算机视觉，自然语言处理和机器人技术在各个领域都取得广泛应用。为机器人赋予人的智能，让智能体能“读懂”人类的语言，“看懂”视觉的信息，并自主行动来服务人类是人们长期努力的目标。视觉语言导航领域就是在研究这样的方法，使得智能体能在自然语言的指令引导下，不断在视觉环境中探索，最终完成指定的任务。

现有的视觉语言导航方法大多基于视觉特征，自然语言自然语言指令特征的融合和对齐，使得智能体能按照路径导向的指令进行循迹导航。然而在现实场景中，更有实际应用价值的是寻物导航任务。这类任务中的自然语言指令往往只包含目标物体的描述信息，并不会给出详细的路径描述。在现有的模型下，智能体受限于有限的指令内容以及对场景整体布局感知的不足，难以有效地在环境中进行探索并找到目标的物体。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于场景融合知识的视觉语言导航方法、装置及介质。

本发明所采用的技术方案是：

一种基于场景融合知识的视觉语言导航方法，包括以下步骤：

获取视觉语言导航任务，所述视觉语言导航任务包括自然语言指令，以及初始的视觉信息和位置信息；

将自然语言指令编码成自然语言指令特征和智能体初始的运行状态；将视觉信息和位置信息进行编码并拼接，得到场景特征；

从视觉信息中提取出物体标签，将物体的语义标签和位置信息编码成物体特征，以更新图卷积网络中的节点表征；

使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重，使用场景中的物体标签检索出知识增强的物体特征；

使用基于场景和知识感知的多模态决策模块，融合所述自然语言指令特征、场景特征以及经过知识增强的物体特征，进行动作预测并更新智能体的运行状态，直到智能体选择停下。

进一步地，所述将自然语言指令编码成自然语言指令特征和智能体初始的运行状态；将视觉信息和位置信息进行编码并拼接，得到场景特征，包括：

在智能体获得视觉语言导航任务后，获得自然语言指令L表示指令的长度；其中智能体放置在起点位置；

在初始化阶段，将[CLS]、指令序列I和分割标识符[SEP]，组成序列输入Transformer进行编码，得到智能体的初始运行状态s₀和自然语言指令的特征：