[发明专利]一种基于深度学习的无人机航拍影像的三维重建方法有效
申请号: | 202010212933.2 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111462329B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 彭聪;江清芳;孙蕊;龚华军 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06T3/00;G06T5/50;G06T7/55;G06N3/0464;G06N3/048;G06N3/0455;G06N3/08 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 陶得天 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 无人机 航拍 影像 三维重建 方法 | ||
1.一种基于深度学习的无人机航拍影像的三维重建方法,其特征在于,按以下步骤进行重建:
S1、改进MVSNet网络模型,使其与无人机载体适配;
S2、利用BlendedMVS数据集,对改进后的网络模型进行训练,经过若干次迭代更新网络权重参数,选取最优网络模型参数;
S3、利用无人机上多个相机进行数据采集,从而获取到的含有位置信息的航拍图片数据;
S4、对步骤S3获取到的图片数据进行格式处理,并在此后输入端到端的神经网络模型得到的相关深度图中;
S5、采用深度图融合算法技术,把深度图转变为3D点云图保存;
步骤S1中按以下步骤改进MVSNet网络模型:
S1.1、提取图像特征:对MVSNet中特征提取的卷积神经网络进行改进,使其在保证能够提取充足的特征点情况下,减少图片的占有内存,更有效率地对图像进行降采样处理,从而最终能更好的和无人机相结合;
S1.2、构建3D代价体素Cost Volume:根据参考视图的相机锥体构建3D代价体素CostVolume:根据可微单应性变换,利用提取到的N个特征图和相应的相机参数把其他视角提取到的特征图转化到参考相机视锥下的不同深度上,由此得到N个特征体,进一步基于方差操作将它们合成一个Cost Volume,最后采用一个多尺度3D卷积神经网络去噪声污染得到最优Cost Volume;
S1.3、生成初始深度图:根据概率加权和公式,沿着深度方向计算期望值,在构建代价体素Cost Volume期间,此处的期望值能够产生一个连续的深度估算,输出深度图,从而更好地控制离群值滤波的阈值参数;
S1.4、利用损失函数优化深度图:根据深度残差网络,将初始深度图和调整大小的参考视图进行连接操作输入网络,网络输出的结果添加初始深度图后生成细化深度图;根据真值深度图,利用绝对平均差作为训练的损失函数,同时对初始深度图和细化深度图进行优化操作;
步骤S1.1包括:
采用一个8层2D卷积神经网络对输入图像进行特征提取,将第二、第四、第六层步长设置为2,使特征提取金字塔分为四种尺度,并且卷积神经网络输出得到的特征图尺寸为原始输入尺寸的1/8,且通道数为32;对于每种尺度,利用一层卷积网络来提取更高层次的图像表示;除了最后一层卷积层外,每个卷积层后面都有一个批处理标准化层(BN)和线性修正单元(ReLU);同时,对于N个视图所采用的N个特征提取金字塔之间共享权重参数;经此操作后,每个保留像素点的原始领域信息被编码到像素描述符中,使得提取的每个特征图包含了原始像素的周围信息;
步骤S1.2包括:
利用可微单应性变换,将所有特征图转换到平行于参考视锥的不同平面上,基于像素操作的平面变换公式如下:
x0~Hi(d)·x
其中,x为投影前像素点,x0为投影后的像素点,~为投影操作,Hi(d)为第i个特征图和深度为d的参考特征图之间的单应性变换;
单应性变换由一个3*3矩阵表示:
其中,Ki,Ri和ti分别为第i个视角图像的相机内参矩阵,旋转矩阵和位移矩阵,和t1分别为参考视角图像的相机内参矩阵的转置,旋转矩阵的转置和位移矩阵,I为单位矩阵,d为深度值;这里从425mm到681mm以2mm间距采样128个深度值;
单应性变换作为连接2D特征提取和3D正则化网络的核心步骤,采用可微的方式实现了N个特征图到N个特征体的操作,并且实现了深度图推理的端到端训练;
每个特征体大小可由下列数学表达式计算:
其中,D为深度采样数128,F为特征图通道数32,经过三个步长为2的卷积层缩放得到特征图宽度和高度都为原来的1/8;
进一步基于方差操作具体数学表达式如下:
其中,N为视角个数,为N个特征体的平均值,Vi为第i个特征体;由此构建成一个3D代价体素Cost Volume;
采用一个四级多尺度3D卷积神经网络对代价体素Cost Volume进行正则化操作达到平滑去噪声效果;它使用了编码器-解码器结构;将第一个3D卷积层后的32通道代价体素CostVolume减小到8通道,并将每个尺度内的卷积设置为2层;最后一个卷积层输出一个1通道的代价体素Cost Volume;最后利用softmax操作沿深度方向进行概率归一化;
步骤S1.3中概率加权和具体数学表达式如下:
其中,P(d)为深度d处所有像素点的概率估计值,[dmin,dmax]为采样深度取值范围;
步骤S1.4包括:
利用深度残差网络来生成细化深度图,深度残差网络一共有四层卷积层,前三层为32通道的2D卷积层,最后一层为1通道的2D卷积层;除了最后一层外,每个卷积层后面都有一个批处理标准化层和线性修正单元,最后一层用来学习负残差,深度残差网络输出的结果添加上初始深度图后得到细化深度图;
根据损失函数优化初始深度图和细化深度图,损失函数数学表达式如下:
其中,d(p)为像素点p的真值深度值,为像素点p的初始深度估计,为像素点p的精细深度估计,将λ参数设置为1:0。
2.根据权利要求1所述的一种基于深度学习的无人机航拍影像的三维重建方法,其特征在于,步骤S2包括:
BlendedMVS数据集中的低分辨率数据集图片尺寸为768*576,该数据集包含113个精心挑选和重建的3D模型;这些纹理模型涵盖了各种不同的场景,包括城市、建筑、雕塑和小物件;每个场景包含20到1000张输入图像,总共有17818张图像;为了使用BlendedMVS训练MVSNet网络,将所有训练样本调整为H*W=576*768,并将深度采样值设为D=128;相应地,将该数据集分为106个训练场景和7个验证场景来评估网络训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212933.2/1.html,转载请声明来源钻瓜专利网。