[发明专利]基于自注意力导向特征融合的自监督单目深度估计方法在审
申请号: | 202210606117.9 | 申请日: | 2022-05-31 |
公开(公告)号: | CN115035171A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 吴萌;蒋培哲;蔚婧;文天贶;江尚航;张乐 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王奇 |
地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 导向 特征 融合 监督 深度 估计 方法 | ||
1.基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,包括以下步骤:
步骤1,使用连续的视频帧或者双目图像作为数据集,将图片调整至同一大小后作为训练集进行数据增广;
步骤2,构建基于注意力导向特征融合的自监督单目深度估计框架,包括改进的深度估计网络和位姿估计网络:
改进的深度估计网络包括依次连接的编码器和解码器,所述编码器使用ResNet18,编码器的输出端连接解码器,解码器为5层结构,每层包含卷积以及上采样模块,其中第2、3、4、5层依次连接有空间交叉注意力模块以及深度估计模块;所述编码器的输出还连接通道自注意力模块,通道自注意力模块的输出分别与每个空间交叉注意力模块的输入连接;
步骤3,设计损失函数,采用数据增广后的训练集和验证集对基于注意力导向特征融合的自监督单目深度估计框架进行训练;
步骤4,输入待估计图片,采用训练好改进的深度估计网络对待估计图片进行深度估计输出结果。
2.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述步骤1中的数据增广方法包括依次进行的随机水平翻转、随机亮度、对比度、饱和度以及色调抖动。
3.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述通道自注意力模块中具体操作中,利用矩阵乘法计算输入特征E的特征相似性S,经过Softmax层得到注意力图Ac,最后将注意力图与原特征相乘,并与原特征中每个元素对应求和,得到增强后的特征
4.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述空间交叉注意力特征融合模块对输入的增强特征做如下操作:针对使用临近点插值的方式对其进行上采样到40×128分辨率,并通过1×1卷积转化为query特征:Query=Q(x);针对X使用平均池化的方式也对其进行下采样到40×128分辨率,并使用1×1卷积得到key和value特征:Key=K(x)和Value=V(x),按矩阵乘法得到空间交叉注意力图最终获取融合特征F。
5.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,所述损失函数采用图像重投影损失和平滑度损失,公式分别为:
其中,Lph表示重投影损失,It和Is→t分别为t时刻的原始图像和重构图像,SSIM以3×3的像素窗口来计算图像的相似性,α和β为超参数;Ls表示平滑度损失,dt*为t时刻平均归一化深度的倒数;
为了解决遮挡的区域并剔除与相对相机运动静止的目标,在损失函数中使用最小重投影损失与auto-mask进行改进:
其中μ为auto-mask,[]内条件满足记为1,不满足为0;
则总损失函数L为:
其中,Lp为最小光度误差,μ为auto-mask,S=4为层数,λ为平滑度损失的权值。
6.如权利要求1所述的基于注意力导向特征融合的自监督单目深度估计方法,其特征在于,深度估计网络和位姿估计网络均采用Adam优化器进行训练,训练过程中,深度估计网络输入单张RGB图像输出对应的深度图,使用ResNet18为网络骨架利用卷积池化层进行逐级下采样,解码器部分利用卷积并逐级上采样,原始输入图像中的空间信息与图像中的边缘信息会逐渐恢复,并且使用跳跃连接结构,即解码器每层特征与对应编码器中的特征使用拼接的方式在通道上融合,提供多尺度层次信息,以达到更精细的效果;位姿估计网络是基于ResNet18设计,可以输入两张RGB图像估计6自由度相对位姿旋转和平移参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210606117.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种施工用降尘隔音装置
- 下一篇:一种多层电池盒包装结构