[发明专利]一种基于改进U-Net的自监督单目深度估计算法在审
申请号: | 202111326701.0 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114119694A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 郑秋梅;于涛 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 net 监督 深度 估计 算法 | ||
本发明提出基于U‑Net的自监督单目深度估计算法,解决U‑Net网络未充分利用全尺度特征图的问题,提高了网络对于边界处和遮挡处的深度预测精度,其包括以下步骤:1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;3)通过将编码器的多通道信息分组连接到解码器,从而实现深层特征和浅层特征融合,以减少视觉伪影;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
技术领域
本发明提出一种基于改进U-Net的自监督单目深度估计算法,解决U-Net 网络没有充分利用全尺度特征度的问题,提高了对于特征图的深度预测的准确性。属于数字图像处理领域。
背景技术
在数字图像处理中,深度图是研究的关键问题之一。在自动驾驶等领域中,预测行人等周边环境距离车辆的远近是至关重要的,因此也突显出了本研究的重要性。
对于不具有大的无语义区域的图片,常规的深度估计方法可以取得很好的估计精度。但是对于具有大的无语义区域以及无清晰的边界的图片,以往的精度都不太理想。这些方法在KITTI、Make3D等数据集上的检测结果来看,对于其中的上述图片产生的深度图较为模糊,精度较低。由此可以说明此前方法对于边界以及大的无语义区域缺少更精确的估计。边界和无语义区域成为制约单目深度估计的关键问题,越来越多的学者对此展开了研究,通过研究卷积神经网络低层特征和高层特征的信息特点,使用不同层的特征输出其深度图,得出了不同特征层具有不同的贡献的结论,即高层特征可以表达整幅图像的语义环境和物体的边界等信息,而低层特征经过卷积之后,可以表达一些说不清的更抽象化的特征。本文发明主要针对此前的神经网络 U-Net过于简单,没有充分利用多层特征图的问题,提出了具有全连接的编码器和解码器,增强了网络对于不同层次特征的利用,并引入通道注意力模块增强重要通道的权重,从而提高了模型的预测精度,并可以产生更清晰的深度图。
发明内容
针对上述问题,本发明的是一种基于改进U-Net的自监督单目深度估计算法,通过使用ResNet网络改进U-Net网络无法利用全尺度特征的问题,增强网络对于不同层次特征的利用,利用通道注意力模块结合五个不同尺度的特征信息,充分利用不同特征图的信息,增强了网络对于边界等区域等的预测精确度,发明基本流程如图1所示。
本发明采取如下技术方案:一种基于改进U-Net的自监督单目深度估计算法包括如下步骤:
1)构建由卷积层和池化层以及下采样层所组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息;
2)构建由卷积层、池化层、上采样层和通道信息融合层组成的解码器来利用接收到的编码器层特征,从而生成精密的深度图;
3)通过将编码器的多通道信息分组连接到解码器,从而实现深层特征和浅层特征融合,以减少视觉伪影;
4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
本发明由于采取以上方法,其具有以下优点:
1、通过使用通道注意力模块增强重要通道信息的权重;
2、改进原有的编码器和解码器的结构,使解码器能充分利用多尺度特征图的信息。
3、在保证速度的同时有效提高检测精度,尤其是对语义边界不明显的图片。
附图说明
图1本发明基本流程图;
图2改进的U-Net结构;
图3本发明网络生成过程;
图4本发明网络整体改进后实验效果;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111326701.0/2.html,转载请声明来源钻瓜专利网。