[发明专利]一种基于深度可分卷积神经网络的视觉深度估计方法有效

专利信息
申请号: 201811276559.1 申请日: 2018-10-30
公开(公告)号: CN109146944B 公开(公告)日: 2020-06-26
发明(设计)人: 周武杰;袁建中;吕思嘉;钱亚冠;向坚;张宇来 申请(专利权)人: 浙江科技学院
主分类号: G06T7/50 分类号: G06T7/50;G06N3/04;G06N3/08
代理公司: 宁波奥圣专利代理事务所(普通合伙) 33226 代理人: 周珏
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度可分卷积神经网络的视觉深度估计方法,其先构建深度可分卷积神经网络,其隐层包括卷积层、批规范化层、激活层、最大池化层、conv_block网络块、深度可分卷积网络块、Concatanate融合层、Add融合层、反卷积层、可分离卷积层;然后使用训练集中的单目图像作为原始输入图像,输入到深度可分卷积神经网络中进行训练,得到单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度可分卷积神经网络训练模型及最优权值矢量;再将待预测的单目图像输入到深度可分卷积神经网络训练模型中,并利用最优权值矢量,预测得到对应的预测深度图像;优点是其预测精度高。
搜索关键词: 一种 基于 深度 卷积 神经网络 视觉 估计 方法
【主权项】:
1.一种基于深度可分卷积神经网络的视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建深度可分卷积神经网络:深度可分卷积神经网络包括输入层、隐层和输出层;隐层包括5个卷积层、11个批规范化层、9个激活层、3个最大池化层、2个conv_block网络块、4个深度可分卷积网络块、1个Concatanate融合层、3个Add融合层、3个反卷积层、3个可分离卷积层;深度可分卷积网络块由1个卷积层、4个批规范化层、2个可分离卷积层、3个激活层、1个带孔可分离卷积层、1个Add融合层组成,深度可分卷积网络块中的卷积层和第1个批规范化层依次设置构成第一输入块,深度可分卷积网络块中的第1个可分离卷积层、第2个批规范化层、第1个激活层、带孔可分离卷积层、第3个批规范化层、第2个激活层、第2个可分离卷积层、第4个批规范化层依次设置构成第二输入块;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于隐层,5个卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个卷积层的卷积核个数为16,第2个卷积层的卷积核个数为32,第3个卷积层的卷积核个数为64,第4个卷积层的卷积核个数为1024,第5个卷积层的卷积核个数为1,11个批规范化层的参数均采用默认值,9个激活层的激活函数均采用ReLu,3个最大池化层的池化步长均为2×2,2个conv_block网络块各自中的所有卷积层和带孔卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为128,第2个conv_block网络块中的所有卷积层和带孔卷积层的卷积核个数为256,2个conv_block网络块各自中的所有批规范化层的参数均采用默认值,2个conv_block网络块各自中的所有激活层的激活函数均采用ReLu,第1个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为1×1形成,第2个conv_block网络块中的1个带孔卷积层为一卷积层通过设置扩张比为2×2形成,4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个和第2个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为128,第3个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为256,第4个深度可分卷积网络块中的卷积层、可分离卷积层、带孔可分离卷积层的卷积核个数为512,第1个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第2个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为1×1形成,第3个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为2×2形成,第4个深度可分卷积网络块中的带孔可分离卷积层为一可分离卷积层通过设置扩张比为4×4形成,4个深度可分卷积网络块中的批规范化层的参数均采用默认值,4个深度可分卷积网络块中的激活层的激活函数均采用ReLu,3个反卷积层的卷积核大小均为3×3、卷积步长均为2×2,第1个反卷积层的卷积核个数为64,第2个反卷积层的卷积核个数为32,第3个反卷积层的卷积核个数为16,3个可分离卷积层的卷积核大小均为3×3、卷积步长均采用默认值,第1个可分离卷积层的卷积核个数为64,第2个可分离卷积层的卷积核个数为32,第3个可分离卷积层的卷积核个数为16;对于隐层,第1个卷积层的输入端接收输入层的输出端输出的原始输入图像,第1个卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第1个批规范化层的输入端接收J1中的所有特征图,第1个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第1个激活层的输入端接收P1中的所有特征图,第1个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第1个最大池化层的输入端接收H1中的所有特征图,第1个最大池化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第2个卷积层的输入端接收Z1中的所有特征图,第2个卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第2个批规范化层的输入端接收J2中的所有特征图,第2个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,第2个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第2个最大池化层的输入端接收H2中的所有特征图,第2个最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第3个卷积层的输入端接收Z2中的所有特征图,第3个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第3个批规范化层的输入端接收J3中的所有特征图,第3个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,第3个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第3个最大池化层的输入端接收H3中的所有特征图,第3个最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第1个conv_block网络块的输入端接收Z3中的所有特征图,第1个conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为B1,其中,B1中的每幅特征图的宽度为高度为第1个深度可分卷积网络块的输入端接收B1中的所有特征图,第1个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S1,其中,S1中的每幅特征图的宽度为高度为第2个深度可分卷积网络块的输入端接收S1中的所有特征图,第2个深度可分卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为S2,其中,S2中的每幅特征图的宽度为高度为第2个conv_block网络块的输入端接收S2中的所有特征图,第2个conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为B2,其中,B2中的每幅特征图的宽度为高度为第3个深度可分卷积网络块的输入端接收B2中的所有特征图,第3个深度可分卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S3,其中,S3中的每幅特征图的宽度为高度为第4个深度可分卷积网络块的输入端接收S3中的所有特征图,第4个深度可分卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为S4,其中,S4中的每幅特征图的宽度为高度为Concatanate融合层的输入端接收B1中的所有特征图、S1中的所有特征图、S2中的所有特征图、B2中的所有特征图、S3中的所有特征图、S4中的所有特征图,Concatanate融合层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第4个激活层的输入端接收C1中的所有特征图,第4个激活层的输出端输出1408幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收H4中的所有特征图,第4个卷积层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第4个批规范化层的输入端接收J4中的所有特征图,第4个批规范化层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第5个激活层的输入端接收P4中的所有特征图,第5个激活层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第1个反卷积层的输入端接收H5中的所有特征图,第1个反卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第5个批规范化层的输入端接收F1中的所有特征图,第5个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第1个可分离卷积层的输入端接收H3中的所有特征图,第1个可分离卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第9个批规范化层的输入端接收K1中的所有特征图,第9个批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9中的每幅特征图的宽度为高度为第1个Add融合层的输入端接收P9中的所有特征图和P5中的所有特征图,第1个Add融合层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为第6个激活层的输入端接收A1中的所有特征图,第6个激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第2个反卷积层的输入端接收H6中的所有特征图,第2个反卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为F2,其中,F2中的每幅特征图的宽度为高度为第6个批规范化层的输入端接收F2中的所有特征图,第6个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第2个可分离卷积层的输入端接收H2中的所有特征图,第2个可分离卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第10个批规范化层的输入端接收K2中的所有特征图,第10个批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P10,其中,P10中的每幅特征图的宽度为高度为第2个Add融合层的输入端接收P10中的所有特征图和P6中的所有特征图,第2个Add融合层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为第7个激活层的输入端接收A2中的所有特征图,第7个激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第3个反卷积层的输入端接收H7中的所有特征图,第3个反卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为F3,其中,F3中的每幅特征图的宽度为R、高度为L;第7个批规范化层的输入端接收F3中的所有特征图,第7个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为R、高度为L;第3个可分离卷积层的输入端接收H1中的所有特征图,第3个可分离卷积层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为R、高度为L;第11个批规范化层的输入端接收K3中的所有特征图,第11个批规范化层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为P11,其中,P11中的每幅特征图的宽度为R、高度为L;第3个Add融合层的输入端接收P11中的所有特征图和P7中的所有特征图,第3个Add融合层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为R、高度为L;第8个激活层的输入端接收A3中的所有特征图,第8个激活层的输出端输出16幅特征图,将输出的所有特征图构成的集合记为H8,其中,H8中的每幅特征图的宽度为R、高度为L;第5个卷积层的输入端接收H8中的所有特征图,第5个卷积层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为R、高度为L;第8个批规范化层的输入端接收J5中的所有特征图,第8个批规范化层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为R、高度为L;第9个激活层的输入端接收P8中的所有特征图,第9个激活层的输出端输出1幅特征图,将输出的所有特征图构成的集合记为H9,其中,H9中的每幅特征图的宽度为R、高度为L;对于输出层,输出层的输入端接收H9中的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将之间的损失函数值记为步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;步骤2_2:将{Q(x',y')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811276559.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top