[发明专利]一种基于深度学习的三维场景重建方法有效
申请号: | 201811112829.5 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109461180B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 金福生;赵钰;秦勇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06T17/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于深度学习的三维场景重建方法,属于深度学习和机器视觉技术领域。通过卷积神经网络来估计场景的深度结构,并通过多视角方法对密集结构进行细化。具体通过训练一种全卷积残差神经网络来预测深度图,再基于从不同视角拍摄的彩色图像,利用对极几何和密集优化方法来优化深度图并估计相机的姿态;最后,将优化后的深度图投影到三维空间,并通过点云进行三维可视化。能够有效解决室外三维重建的问题,并提供高质量的点云输出结果;可在任意光照条件下使用;可克服单目方法无法估计物体实际尺寸的不足。 | ||
搜索关键词: | 一种 基于 深度 学习 三维 场景 重建 方法 | ||
【主权项】:
1.一种基于深度学习的三维场景重建方法,其特征在于:核心思想是:通过训练一种预训练的全卷积神经网络来预测深度图,再根据从不同视角拍摄的彩色图像,利用对极几何和密集优化方法来优化深度图并估计相机的姿态;最后,将优化后的深度图投影到三维空间,并通过点云进行三维可视化;包括如下步骤:步骤一:通过彩色相机拍摄图像;步骤二:根据步骤一中拍摄的图像,通过预先训练过的卷积神经网络,估计场景的三维深度结构,得出二维深度图;步骤2.1将输入的三通道图像转化为神经网络中可以使用的张量,即将图像数据由三维转化为4维;步骤2.2将经步骤2.1转化后得到的张量输入神经网络,神经网络通过该张量预测图像中场景的三维深度结构;其中,神经网络采用全卷积神经网络结构,此全卷积神经网络结构中只包含卷积层和反卷积层;步骤一中使用全卷积神经网络结构只是用卷积层和反卷积层,卷积层的输入为多维张量,不需要将图像转化为向量,这保持了像素间的空间关系;卷积层和反卷积层可以处理任意大小的张量,即神经网络可以处理任意大小的图像;步骤2.3将神经网络得到的张量转化为深度图,神经网络输出的结果为多维张量,需要将张量转化为二维深度图;步骤三:移动相机从不同视角拍摄图像;步骤四:根据对极几何关系,估计相机的位置变化;当系统获取到场景不同视角的图像时,首先需要估计拍摄过程中相机的位置变化,估计具体通过PnP(Perspective‑n‑Point)方法以及本质矩阵方法两种中的一种进行,两种方法的核心思想都是通过提取不同视角图像中的特征点并进行匹配得到匹配点,根据匹配点位置的几何关系计算相机的位置变化;其中,PnP方法需要现有的深度信息,而本质矩阵方法不需要现有的深度信息;步骤4.1提取不同视角的图片中的特征点,具体采用计算机视觉中的AKAZE特征算子,在图像中提取特征点,并计算描述子;步骤4.2根据步骤4.1特区的特征点和描述子,对特征点进行匹配,最终得到一组匹配点;步骤4.3根据步骤4.2得到的匹配点,通过PnP算法以及本质矩阵方法两者之一估计相机位置变化;当步骤2输出的二维深度图有效时,PNP算法估计相机位置,具体为:获取三组以上的匹配点,根据步骤二预测得到的二维深度图,通过求解PnP算法估计相机位置变化,并通过随机抽样一致性(Random Sample Consensus,RANSAC)算法排除匹配错误的匹配点;当步骤2输出的二维深度图无法使用时,采用本质矩阵方法估计相机位置,具体为:获取八组以上的匹配点,通过八点法求解相机位置变化的基本矩阵,之后结合相机内部参数计算相机的位置变化;步骤五:根据相机的位置变化,通过稠密匹配方法匹配不同图像中的像素点,以此优化步骤二中估计得到的深度图,具体为:步骤5.1计算各像素的光度误差,设步骤四中得到的相机位置变化为T,Ir为参考图像,Im为目标图像,K为相机参数,u为对应点在目标图像中的像素坐标,d为对应点的深度,T为相机的运动量,函数Π为投影函数,即将三维空间点投影至二位平面,则对应的误差E可以表示为:r=Ir(u)‑Im(Π(KTΠ‑1(u,d)))步骤5.2通过高斯牛顿优化方法优化误差项E,具体为:首先,求解误差项对于深度的偏导数:
其中,G为各点的权重,A为投影函数的雅可比矩阵,q为相机运动的李代数形式,θ为相机运动的角度,a为参考深度;则迭代式可表示为:
由此进行迭代直至误差小于0.05;步骤六:重复步骤三到步骤五,从不同视角拍摄物体,并进行估计,直至物体需要重建的所有视角均被拍摄;步骤七:将不同视角拍摄的图像根据空间关系建立图结构,并通过图优化方法进行全局优化,具体为:步骤7.1建立各视角的位置节点;构建图优化结构,将不同视角拍摄的图片作为图中的节点,节点内容包括图片本身和拍摄相机的位置与姿态信息;步骤7.2建立各视角的关系边,即分别计算不同视角间相机的,并作为关系边添加进入优化图结构;其中,关系边连接的节点为不同的相机位置,数据为相机位置关系;其中,图优化结构中的关系边代表了不同节点之间的位置关系,即不同视角间相机的位置关系;步骤7.3对图优化结构进行优化,具体为:调用图优化工具提供的优化算法,调整节点位置,找到误差最小的位置关系,作为对图优化结构进行优化的结果,即不同视角拍摄时的相机位置;步骤八:将多个视角的深度图投影至三维空间,并通过三维点云进行可视化,具体为:步骤8.1将单张深度图的深度信息转化为三维点;设相机的焦距为fx与fy,相机的中心位置为cx与cy,对应点的深度为d,对于像素点(u.v)则其对应的三维坐标为:x=(u‑cx)*d/fxy=(v‑cy)*d/fyz=d其中,(x,y,z)是深度为d处的三维坐标;步骤8.2将不同视角的三维点融合;由步骤七得到的相机位置为T,步骤8.1得到的三维坐标为Plocal=[x,y,z]T,则该点的全局坐标为:Pglobal=TPlocal步骤8.3将所有的三维点导入点云,并调用点云工具中的滤波算法,以去除重复的点;步骤8.4将点云进行可视化,即通过界面显示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811112829.5/,转载请声明来源钻瓜专利网。