[发明专利]基于注意力机制的单目图像深度估计方法在审

申请号：	202310735294.1	申请日：	2023-06-20
公开（公告）号：	CN116630387A	公开（公告）日：	2023-08-22
发明（设计）人：	韩冰;熊燕南;施道典;高新波;杨铮	申请（专利权）人：	西安电子科技大学
主分类号：	G06T7/50	分类号：	G06T7/50;G06N3/0464;G06N3/0455;G06N3/084;G06V10/764
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制图像深度估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的单目图像深度估计方法。主要解决现有技术在图像的光照差和像素深度值变化微小区域深度估计精度低的问题。其实现方案是：读取单目图像深度估计数据集数据，并对其进行预处理；使用Swin Transformer网络作为编码器网络提取预处理数据的特征；构建聚合结构，用于优化预处理数据的特征输出全局信息特征；构建基于注意力机制的解码器网络，以对编码器和聚合结构的输出特征进行优化解码，得到解码器输出特征；构建深度预测网络，利用解码器的输出特征预测图像深度。本发明显著提高了单目图像深度估计的精度，且在图像光照差和像素深度值变化微小的区域深度估计效果更好，可用于自动驾驶、机器人和三维重建。

技术领域

本发明属于图像处理技术领域，特别涉及一种单目图像深度估计方法，可用于自动驾驶、机器人及三维重建。

背景技术

单目图像深度估计是计算机视觉领域的基本任务之一，其广泛应用于自动驾驶、机器人及三维重建等领域，具有极高的应用价值。单目图像深度估计的任务是为RGB图像预测逐像素深度值。

近年来，单目图像深度估计问题已经受到了广泛的关注。现有的算法主要是利用编码器-解码器结构。在编码器-解码器结构中，编码器用于提取图像特征，而解码器通过对编码器提取的特征进行迭代优化，最终输出预测结果。对于编解码器的设计，大部分方法采用卷积神经网络；最近，很多方法利用变形器结构Transformer来提升网络的特征提取和处理能力，还有一些方法利用条件随机场预测图像的能量函数。

与传统方法相比，卷积神经网络具有强大的图像特征提取能力。Eigen等人首先将卷积神经网络应用于单目深度估计任务。在此基础上出现了多种利用卷积神经网络实现单目深度估计任务并作出改进的工作。其中多尺度方法BTS提出了一个局部平面引导层，旨在在解码过程中融合所有层次的特征。块注意力网络PWA设计了一个基于补丁的注意力机制，专注于每个局部区域。

虽然基于卷积神经网络的方法仍然非常流行，但是它也有不足之处。卷积神经网络的感受野是局部的，不能建模图像的全局信息，这让基于卷积神经网络的单目图像深度估计方法遇到了性能瓶颈。由于Transformer具有比卷积神经网络更大的感受野，并能够建模长期依赖关系，因而在计算机视觉任务中越来越受到关注，许多工作将Transformer应用于单目深度估计。其中自适应区间方法AdaBins是利用微型视觉变形器结构miniViT预测自适应区间。神经窗口条件随机场方法NeWCRFs是利用移动窗口变形器结构Swin-Transformer的强大特征提取能力。区间构造方法BinsFormer是利用Transformer作为解码器。虽然，这些基于transformer的方法取得了更好的单目深度估计性能。但由于这些方法主要把单目深度估计任务作为回归任务，因而存在收敛速度慢和亚优化的问题。

为了缓解这个问题，另一个研究分支则将单目深度估计任务视为分类任务。其中，序数回归网络DORN首先将单目深度估计视为序数分类回归任务，并设计了有效的序数分类回归深度估计损失函数。然而，DORN提出的序数分类回归方法由于深度值的离散化，在预测深度图上会出现明显的深度不连续性，影响了视觉效果。为了解决这个问题，Adabins进一步将单目深度估计视为分类回归任务。其通过线性组合区间中心点，有效缓解了深度值的不平滑过渡问题。像素构造方法PixelFormer提出了一个轻量级的区间生成模块，以降低模型的复杂度。虽然这些方法在深度估计的精度方面取得了很大进步，但却由于缺少对图像像素的长期依赖关系的建模以及对图像特定区域的注意力，因而会导致在图像光照差、深度变化微小区域对像素深度值预测不准确的不足。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于注意力机制的单目图像深度估计方法，以提升在图像光照差、深度变化微小区域对像素深度值预测的准确率，获得更好的单目图像深度估计性能。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310735294.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力机制的单目图像深度估计方法在审

专利文献下载