[发明专利]一种基于场景融合知识的视觉语言导航方法、装置及介质在审
| 申请号: | 202310087842.4 | 申请日: | 2023-02-08 |
| 公开(公告)号: | CN116242359A | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 谭明奎;罗宇成;刘飞;杜卿 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G01C21/20 | 分类号: | G01C21/20;G06T7/70;G06V20/00;G06V20/70;G06V10/82 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑宏谋 |
| 地址: | 510641 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 场景 融合 知识 视觉 语言 导航 方法 装置 介质 | ||
1.一种基于场景融合知识的视觉语言导航方法,其特征在于,包括以下步骤:
获取视觉语言导航任务,所述视觉语言导航任务包括自然语言指令,以及初始的视觉信息和位置信息;
将自然语言指令编码成自然语言指令特征和智能体初始的运行状态;将视觉信息和位置信息进行编码并拼接,得到场景特征;
从视觉信息中提取出物体标签,将物体的语义标签和位置信息编码成物体特征,以更新图卷积网络中的节点表征;
使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重,使用场景中的物体标签检索出知识增强的物体特征;
使用基于场景和知识感知的多模态决策模块,融合所述自然语言指令特征、场景特征以及经过知识增强的物体特征,进行动作预测并更新智能体的运行状态,直到智能体选择停下。
2.根据权利要求1所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述基于语义和位置感知的图卷积网络通过的运行机制为:
构建物体和知识图:将物体和知识构成图结构,物体和知识之间的关系为知识库中对应的关系,物体和物体之间则定义一种隐式的关系;
嵌入边关系表征:获得边关系的嵌入;对不同的物体和知识之间的关系嵌入得到不同的关系表征,物体和物体之间隐式的关系也作为一种特殊的关系嵌入;
嵌入节点表征:对所有节点进行语义编码成向量,对已访问的物体进行位置编码,对未访问的物体以及所有知识实体节点的位置编码初始化为全零向量;
结合图卷积网络和边信息表征,对图中的节点进行特征更新,得到最终的图节点表征;输入当前场景对应的物体标签类型,输出图卷积更新表征后的经过知识增强过后的物体特征。
3.根据权利要求2所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述结合图卷积网络和边信息表征,对图中的节点进行特征更新,得到最终的图节点表征,包括:
A1、对邻居节点求和,并加上边嵌入表征来更新目标节点的特征表示;
A2、为了更好地表示目标节点,最后更新时也加上目标节点自身的特征,然后将输出结果经过非线性的激活函数,得到节点的更新表示;
A3、使用多层的图卷积模型结构迭代步骤A1-A2,得到最终的图节点表征。
4.根据权利要求2所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述构建物体和知识图,包括:
使用预设网络模型检测获得物体标签列表作为索引,在预设知识库中检索出相关性权重最高的k条知识。
5.根据权利要求1所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述基于场景和知识感知的多模态决策模块的运行机制为:
使用选择性注意力机制融合多模态表征;
更新智能体的运行状态:在每一时刻,将多模态决策模块的最后一层的状态变量对自然语言指令特征和对应的注意力分数的加权求和值,以及对视觉特征和注意力分数的加权求和值拼接起来,经过线性变换得到新的状态特征;
动态聚合场景和知识:根据状态特征对同一视图中的场景特征和知识增强的物体特征的注意力分数进行排序,选取注意力分数最大值作为该视图的评分;
输出智能体的决策:对所有不同的视图的最后评分进行Softmax,选取评分的最大值对应的视图作为智能体移动的方向;如果评分的最大值对应的是当前视图,则智能体选择停下。
6.根据权利要求5所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述使用选择性注意力机制融合多模态表征,包括:
输入自然语言指令特征、场景特征以及知识增强的物体特征,其中,自然语言指令特征和场景特征都只作为注意力机制的键和值,不进行更新,而知识增强的物体特征则参考自然语言指令特征和场景特征进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310087842.4/1.html,转载请声明来源钻瓜专利网。





