[发明专利]基于注意力机制的单目图像深度估计方法在审
| 申请号: | 202310735294.1 | 申请日: | 2023-06-20 |
| 公开(公告)号: | CN116630387A | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 韩冰;熊燕南;施道典;高新波;杨铮 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/0464;G06N3/0455;G06N3/084;G06V10/764 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 图像 深度 估计 方法 | ||
1.一种基于注意力机制的单目图像深度估计方法,其特征在于,包括如下步骤:
(1)从单目图像深度估计数据库读取训练数据和测试数据,对训练数据的图像依次进行旋转、缩放、翻转、调整和归一化的预处理,得到训练数据;对测试数据的图像依次进行缩放和归一化的预处理,得到测试数据;
(2)使用包括有4个级联Swin Transformer stage模块的Swin Transformer网络作为编码器网络,将训练数据和测试数据分别输入到该Swin Transformer网络,分别得到该4个级联模块输出的训练图像特征E1,E2,E3和E4及测试图像特征E′1,E'2,E′3和E'4;
(3)使用聚合结构增强特征的全局信息:
3a)由4个池化比例分别为1、2、3和6的平均池化层并联组成金字塔池化模块,将顶层编码器输出的训练图像特征E4输入到该金字塔池化模块提取多尺度信息,并将多尺度信息与输入特征E4拼接,再经过一个卷积层生成具有全局信息的新特征;
3b)将具有全局信息的新特征通过现有的卷积自注意力模块进行特征优化,得到优化后的全局信息特征X4;
(4)构建基于注意力机制的解码器网络:
4a)建立由窗口自注意力子模块、移位窗口自注意力子模块和Pixel Shuffle层级联组成的基于窗口的自注意力模块;
4b)建立由平均池化层与最大池化层并联,再与卷积层、sigmoid层和转置卷积层级联组成的区域注意力模块;
4c)将基于窗口的自注意力模块与区域注意力模块并联组成解码器模块,
4d)将4个解码器模块级联组成基于注意力机制的解码器网络;
(5)使用基于注意力机制的解码器网络对编码器网络输出的特征E1、E2、E3、E4和聚合结构输出的全局信息特征X4进行逐层优化解码,依次得到特征X3、X2、X1和X0,最终输出特征X0;
(6)构建深度图预测网络:
6a)建立依次包含卷积层和两个并联的带有可学习参数的平均池化层和最大池化层的自适应区间中心预测模块,用于自适应地预测输入图像深度值的区间中心;
6b)建立由一个卷积层和一个softmax层组成的概率头模块,用于预测输入图像深度值区间中心对应的概率向量;
6c)将自适应区间中心预测模块和概率头模块并联组成深度图预测网络;
(7)预测输入图像对应的深度图depth:
7a)将解码器网络的输出特征X0分别输入到深度图预测网络中的自适应区间中心预测模块和概率头模块,输出图像深度值的自适应区间中心c(b)和概率向量v;
7b)将自适应区间中心c(b)和概率向量v进行线性组合得到初步深度图,再通过上采样操作将初步深度图恢复到输入图像的大小,得到最终的深度图depth。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中对训练数据的图像依次进行旋转、缩放、翻转、调整和归一化的预处理,是先将输入图像随机旋转[-1°,1°],再按照数据集对图像尺寸缩放,再以0.5的概率随机水平翻转图像,并以0.5的概率随机调整图像的亮度、对比度、饱和度和色调,再采用如下归一化公式归一化图像;
其中,x是RGB图像的单个通道的像素值,μ是对应通道像素值的均值,S是对应通道像素值的标准差,xscale是归一化后的对应通道像素值。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中4个Swin Transformer stage模块,结构相同,每一个Swin Transformer stage模块包含一个下采样层和若干个重复的Swin Transformer Block。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310735294.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农业种植用秸秆处理用粉碎设备
- 下一篇:传递输送装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





