[发明专利]一种基于深度学习的室内场景单目图像深度估计方法在审

专利信息
申请号: 202210251724.8 申请日: 2022-03-15
公开(公告)号: CN114638870A 公开(公告)日: 2022-06-17
发明(设计)人: 刘佳涛;张亚萍 申请(专利权)人: 云南师范大学
主分类号: G06T7/50 分类号: G06T7/50;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04
代理公司: 昆明明润知识产权代理事务所(普通合伙) 53215 代理人: 王鹏飞
地址: 650504 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 室内 场景 图像 估计 方法
【说明书】:

发明涉及一种基于深度学习的室内场景单目图像深度估计方法,属于三维场景感知技术领域。本发明首先引入在ImageNet上作图像分类预训练的神经网络EfficientNet‑b7,构造编码器,在在编码器的不同阶段上,引入基于SENet的残差连接以及卷积和重采样的计算操作,然后基于深度区间划分的思想,构造一个关注于图像全局到局部的损失函数,应用到不同阶段的预测上,得到在不同阶段的预测,最后使用基于自注意力机制的Transformer结构,将不同阶段预测的深度信息进行融合后输出场景深度预测结果。本发明通过设计一个新型、高效且轻量的解码器,将传统的串行融合编码器不同阶段的特征改进为并行融合,提高了模型进行深度估计时对于图像的全局与局部信息的综合利用能力。

技术领域

本发明涉及一种基于深度学习的室内场景单目图像深度估计方法,属于三维场景感知技术领域。

背景技术

从二维RGB图像中进行深度估计具有广泛的应用,例如:三维重建、场景理解、自动驾驶、机器人技术等。随着大规模数据集的出现和硬件运算能力的提高,最近对于图像深度估计的研究主要集中在使用深度学习和卷积神经网络进行二维到三维的重建。从单个RGB图像进行深度估计是一个不适定问题,因为一张图片可以对应于无限数量的三维场景。此外,缺乏场景覆盖、半透明或反射材料等问题可能会导致无法从外观中推导出几何图形的模糊情况。

基于深度学习进行单目深度估计的方法始于Eigen等人提出的双尺度网络。然后一些研究人员提出了许多基于使用卷积神经网络的深度学习的有效方法。文献“Laina等人,Deeper Depth Prediction with Fully Convolutional Residual Networks”使用基于ResNet-50的全卷积残差网络,并将全连接层替换为一系列上采样块。文献“Alhashim等人,High Quality Monoocular Depth Estimation via Transfer Learning”在简单的编码器-解码器网络架构中引入跳跃连接,并使用迁移学习训练模型。文献“Lee等人,FromBig to Small:Multi-Scale Local Planar Guidance for Monocular DepthEstimation”建议用局部平面引导层替换标准上采样层,以在解码器中引导特征达到全分辨率。文献“Fu等人,Deep ordinal regression network for monocular depthestimation”发现如果将深度回归任务转化为分类任务,其性能可以得到提升。文献“Bhat等人,AdaBins:Depth Estimation using Adaptive Bins”设计AdaBins模块,将深度值范围划分为256个区间,每个区间的中心值是落在区间内的像素的深度值,一个像素的最终深度是中心深度的线性组合区间的值。文献“Ranftl等人,Vision Transformers for DensePrediction”将Vision Transformer应用于单目深度估计,通过大型数据集训练得到高精度的深度估计模型。

虽然当前基于深度学习的室内单目图像深度估计有较大进展,但仍存在一些问题:1)在深度学习神经网络使用的大部分编解码结构中,编码器在特征提取阶段由于显示的下采样等操作会造成特征提取不足、空间信息丢失等问题,导致网络容易丢失图像的细粒度信息;2)室内场景单目深度估计所面临的实际场景结构通常较为复杂,如果没有有效地考虑场景中的全局和局部关系,进行深度估计时的准确率就会很低;3)虽然VisionTransformer的出现能够很大程度上改进图像粒度丢失问题,但其模型参数量较大,且需要大量的标注数据来驱动训练。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的室内场景单目图像深度估计方法,针对在使用卷积神经网络的单目深度估计编码网络的深层次中易丢失图像细粒度信息问题,综合使用了多阶段编码的特征。在解码网络中,针对传统网络在复杂场景下较难有效考虑场景中的全局和局部关系问题,设计了一种并行分区间分别预测全局到局部深度信息,然后再调整融合的解码器,并对应设计了损失函数,从而解决上述问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210251724.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top