[发明专利]基于卷积神经网络的单目光场图像无监督深度估计方法有效

申请号：	201910276356.0	申请日：	2019-04-08
公开（公告）号：	CN110163246B	公开（公告）日：	2021-03-30
发明（设计）人：	戴国骏;刘高敏;张桦;周文晖;陶星;戴美想	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于卷积神经网络的单目光场图像无监督深度估计方法。本发明先利用公开的大型光场图像数据集作为训练集，通过数据增强、数据扩充使训练集样本趋于平衡。构建改进的ResNet50网络模型，使用编码器和解码器分别提取模型的高级和低级的特征，再通过密集差结构将编码器和解码器的结果融合，同时另外构建了一个超分辨率遮挡检测网络，能够使用深度学习准确的预测出各个视角之间的遮挡问题；基于光场图像深度估计任务的目标函数是多损失函数，通过预先定义好的网络模型对预处理后的图像进行训练，最后在测试集上对网络模型进行泛化评估。本发明对复杂场景的光场图像预处理效果显著，实现了更精确光场图像无监督深度估计的效果。
搜索关键词：	基于卷积神经网络目光图像监督深度估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于卷积神经网络的单目光场图像无监督深度估计方法，其特征在于包括如下步骤：步骤1、数据预处理：实验数据集基于Stanford公开的采用Lytro illum光场相机拍摄真实世界中的实物对象得到的光场图像数据集；数据预处理包括增强图像亮度、水平/垂直翻转和随机剪切；经过数据预处理后，光场图像数据集得到进一步扩充，增加训练样本和测试样本的多样性；步骤2、构建模型，包括卷积神经网络深度估计模型和卷积神经网络遮挡检测模型；所述的卷积神经网络深度估计模型，具体实现如下：以ResNet50网络模型作为编码器Eecode，在ResNet50的基础上使用自适配归一化对原网络进行改进以适应光场图像使用；编码器将图像的长宽逐步压缩的同时增加了特征的数量，设原来的输入图像为I_256*256*3，下标表示图像的长宽和通道数，经过编码器逐步编码的中间结果变化过程为：I^E_256*256*64→I^E_128*128*128→I^E_64*64*256→I^E_32*32*512→I^E_16*16*1024解码器则刚好相反，将编码器的结果的特征图的长宽一步步恢复到原来图像的尺寸；使用了密集残差结构连接Decode和Encode两个过程，即把I^E_32*32*512和I^D_32*32*512经过跳层连接到一起；考虑带光场相机的视差范围在[‑4,4]的区间内，采用Tanh激活函数提取预测的视差图，由于Tanh的范围是在[‑1,1]之间，所以在得到的视差图的基础上再乘以4倍，便得到真实的视差图；采用4层金字塔的结构获取视差图，所以网络最后得到的是具有4种不同尺度的视差图融合的结果；所述的卷积神经网络遮挡检测模型，用于学习不同视角之间的遮挡关系，同时使用多个损失函数进行约束训练，解决图像遮挡问题和深度估计的一致性问题，并且在每一层结构中使用了自适配正则化；网络由8层全卷积层构成，其中1到3层是编码器负责提取特征，4到6层是解码器根据特征恢复图像，第7层是为了得到超分辨率图像进行的反卷积操作，最后一层是下采样得到原始图像的尺寸；步骤3、为了优化网络模型估计视差图的质量，将原始的输入图像通过估计的视差图双线性插值Warping估计其它视角的图像，并将其它视角的图像的合成图通过损失函数进行约束；步骤4、设置优化器，动态优化调整学习率，给模型动态设定一个理想的学习率，初始学习率设定为0.0001，模型训练过程中，学习率随批次数增加而减缓，减缓机制如下：利用基于动量的随机梯度下降类型的网络优化算法对模型进行训练和参数求解，动量因子μ会随着损失的波动性动态进行调整，μ初始值设为0.5，当损失波动变小时，认为网络相对达到稳定，相应的μ也变小，从而达到动态调节学习率细化训练过程的效果；步骤5、训练卷积神经网络：首先选取步骤1数据集中60％的数据样本作为训练样本集，设置一个随机值决定每次取到的训练集是无序且分布均匀的样本；其次定义损失函数和优化器，调整网络参数并统计指标；最后步骤2的网络模型作为训练模型对数据样本开始进行训练，训练结束之后保存模型，以方便后期快速的模型加载；步骤8.测试卷积神经网络：使用PSNR和SSIM进行评估，这两个指标是一种对图像质量准确率进行量化的指标，用来呈现合成图像优劣的量化效果，通过将模型预测的数据与测试数据进行对比，使用准确率指标对模型的估计效果进行度量，最终得出模型在测试集上估计深度的准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910276356.0/，转载请声明来源钻瓜专利网。

上一篇：业务类别预测方法及系统
下一篇：基于深度最近类均值的模型设计方法及增量气味分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于卷积神经网络的单目光场图像无监督深度估计方法有效

专利文献下载