[发明专利]一种基于深度学习的室内场景单目图像深度估计方法在审
| 申请号: | 202210251724.8 | 申请日: | 2022-03-15 |
| 公开(公告)号: | CN114638870A | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 刘佳涛;张亚萍 | 申请(专利权)人: | 云南师范大学 |
| 主分类号: | G06T7/50 | 分类号: | G06T7/50;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
| 地址: | 650504 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 室内 场景 图像 估计 方法 | ||
1.一种基于深度学习的室内场景单目图像深度估计方法,其特征在于:
Step1:引入在ImageNet上作图像分类预训练的神经网络EfficientNet-b7,构造编码器;
Step2:在编码器的不同阶段上,引入基于SENet的残差连接以及卷积和重采样的计算操作,得到在不同阶段的预测;
Step3:基于深度区间划分的方法,构造一个关注于图像全局到局部的损失函数,应用到不同阶段的预测上;
Step4:使用基于自注意力机制的Transformer结构,将不同阶段预测的深度信息进行融合后输出场景深度预测结果。
2.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法,其特征在于,所述Step1具体为:从互联网上下载好在ImageNet上预训练的EfficientNet-b7网络,获得其在第3、5、6、8、12个块编码的特征向量,这些特征向量的分辨率分别是输入图像分辨率的
3.根据权利要求2所述的基于深度学习的室内场景单目图像深度估计方法,其特征在于,所述Step2具体为:
Step2.1:将第3个块编码的特征向量输入到4个基于SENet的残差块中,第5个块编码的特征向量输入到3个基于SENet的残差块中,第6个块编码的特征向量输入到2个基于SENet的残差块中,第8个块编码的特征向量输入到1个基于SENet的残差块中;
Step2.2:在各阶段的最后一个残差块之后添加通道注意力层,并添加一个从编码器到该层的残差连接;
Step2.3:将个阶段的特征逐步通过二倍上采样和卷积层,得到五阶段具有相同通道数为30和相同分辨率为输入分辨率一半的特征;
Step2.4:将第1、2、5阶段的特征逐像素相加融合,第2、3、5阶段的特征逐像素相加融合,第1、3、4阶段的特征逐像素相加融合,第1、4、5阶段的特征逐像素相加融合,然后经过卷积层得到四个预测,按照神经网络的由浅到深标记为预测1到预测4。
4.根据权利要求3述的基于深度学习的室内场景单目图像深度估计方法,其特征在于,所述Step3具体为:
Step3.1:从真实深度图中获取最大深度d_max和最小深度d_min;
Step3.2:将深度区间[d_min,d_max]平均地划分为10个小区间,一个小区间长度的计算公式如下:
在这10个区间中,第i个区间的深度值范围计算公式如下:
[d_min+(i-1)×len,d_min+i×len]
Step3.3:针对真实深度图作直方图,以找到在10个区间内占占场景深度比例最大的区间;
Step3.4:根据所占比例将10个深度区间进行降序排列,计算Step2.4中预测1在第5个到第10个区间的均方误差,预测2在第4个到第8个区间的均方误差,预测3在第2个到第4个区间的均方误差,预测4在第1个和第2个区间的均方误差;
Step3.5:将四部分误差组合,作为模型训练时约束预测1到预测4关注于局部到全局的一项损失项,计算公式如下:
其中λ1=0.5,λ2=λ3=0.6,λ4=1,ni是真实深度图经过区间掩码后像素总数,和分别是真实深度图和预测i中像素点pi的深度值。
5.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法,其特征在于,所述Step4具体为:
Step4.1:将4阶段的预测结果拼接成一个四通道的张量
Step4.2:将该四通道张量进行卷积核为16×16,步长为16,输出通道为4的卷积操作,即:
Step4.3:将卷积后得到的二维张量展平为一维,即:
Step4.4:将一维张量输入到Transformer Encoder中,并将其输出的一维张量恢复为二维的张量,作为权重矩阵
Step4.5:将四通道张量进行卷积核为3×3,步长为1,输出通道为128的卷积操作,得到形状为的张量
Step4.6:权重矩阵与张量进行逐像素点积运算后,通过一系列卷积层输出最终预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210251724.8/1.html,转载请声明来源钻瓜专利网。





