[发明专利]基于视角生成的室内场景建模方法有效
申请号: | 201910671271.2 | 申请日: | 2019-07-24 |
公开(公告)号: | CN110458939B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 杨鑫;张肇轩;王诚斌;尹宝才;朴星霖 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机视觉技术领域,尤其涉及基于视角生成的室内场景建模方法。本发明通过低分辨体素场景提供的结构辅助信息,生成多视角下的深度图进行信息补全以完成单视角场景建模过程。以视角生成的方式,深入分析了点云、体素、深度图等不同三维表达方式之间的客观联系,基于深度图生成与融合的方式进行深度图的预测并完成室内场景建模的过程。本发明的单视角建模框架,结合了单视角的彩色图片信息、低分辨率场景信息,通过深度信息补全的方式,将单视角下信息缺失的部分利用多个视角的深度图进行补全。 | ||
搜索关键词: | 基于 视角 生成 室内 场景 建模 方法 | ||
【主权项】:
1.基于视角生成的室内场景建模方法,其特征在于,该室内场景建模方法是由多视角深度图生成模块和多视角点云融合模块完成的,步骤如下:/n(1)多视角深度图生成模块/n为生成多视角点云融合模块所需的属于不同视角的点云,需要事先生成与多视角点云相对应的多视角深度图;首先,将初始彩色图像输入至单视角体素重建网络,得到完整但粗糙的体素场景模型;其次,将初始彩色图像输入至单视角点云重建网络,得到精度高但不完整的点云场景模型;之后,在场景模型中心附近随机选择6个视角,分别对体素场景和点云场景进行投影,得到体素深度图和点云深度图;最后,分别将上述6个深度图对输入至深度图补全网络,得到6张补全后的完整点云深度图,为下一步的多视角点云融合模块提供输入;/n(1.1)单视角体素重建网络/n单视角体素重建网络由布局预测网络与目标预测网络构成;/n布局预测网络使用基于跳连接的自编码网络,其中,自编码器由6个卷积块构成,每个卷积块由2个卷积层组成;解码器使用5个上采样层;布局预测网络使用端到端的方式来进行单独训练,并使用基于L1损失的目标函数对网络进行训练;自编码器部分将不同分辨率的单张彩色图片作为输入,经过三个自编码器的卷积操作,得到不同类别的特征,通过特征融合与级联的方式彩色图片的低维度特征被映射到高维度特征空间;在映射的过程中,每个卷积层的特征通道数增加,分辨率逐渐降低;之后通过解码器预测出场景中对象三维模型,在解码器的上采样过程种,每个上采样层不断减少通道的数目,同时不断提高输出的分辨率;/n目标预测网络基于体素对场景目标进行表达,体素的分辨率为32的三次方;目标预测网络的三个编码器分别为高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器;其中,高分辨率特征编码器与低分辨率特征编码器使用卷积神经网络将原始图片进行高维度特征提取,并且在逐层卷积之后使用ROI下采样操作进行显著性特征提取;具体的说:高分辨率特征编码器由ResNet18模型的前3个残差块、1个ROI下采样层和2个包含300个单元的全连接层组成;低分辨率特征编码器由ResNet18模型的前4个残差块与2个包含300个单元的全连接层组成;目标对象特征编码器由3个拥有50个单元的全连接层构成;高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器得到的特征经过连接后形成高维度特征向量,高维度特征向量最终通过2个包含300个单元的全连接层进行计算得到高纬度最终特征;目标预测网络的解码器使用5个上卷积层进行场景空间的体素建模,建模的精度为32的三次方;解码器将编码器得到的高纬度最终特征进行上采样,得到最终的完整但精度较低的体素场景模型;/n(1.2)单视角点云重建网络/n单视角点云重建网络由粗精度预测网络和精细化预测网络组成;/n粗精度预测网络基于VGG16网络结构,整个网络由5个卷积层、1个全连接层及1个上采样层组成,其中,前6层的网络结构与VGG16网络相同,最后的上采样层输出的分辨率为初始输入的一半;粗精度预测网络将初始的彩色图像作为输入,经过卷积层的特征提取以及全连接层的特征映射,提取初始彩色图像的特征信息,并将其映射至高维度空间,再将特征信息进行上采样得到分辨率为输入分辨率一半的粗精度预测特征图;/n精细化预测网络由5个卷积层及1个上采样层构成,第一个卷积层的卷积核大小为9x9,其余4层的卷积核大小为5x5;精细化预测网络的输入为初始的彩色图像以及粗精度预测网络输出的粗精度预测特征图,将上述两张图串联至一起,输入至精细化预测网络,经过5个卷积层的特征提取操作以及最后的上采样操作,最终的到精细化的预测图,对此预测图直接进行反投影操作,即得到初始彩色图像所对应的高精度但不完整的点云场景模型;/n(1.3)随机视角下的场景投影/n以点云场景模型为中心,建立三维坐标系,点云的正朝向为坐标系x轴正方向,点云的上朝向为坐标系z轴的正方向;将此三维坐标系转化为球坐标系,随机选取6个(φ,θ)对,组成6个不同的随机视角(r,φ,θ),其中r根据点云规模不同选取适当的半径值,φ∈(0,90°)代表天顶角,θ∈(-90°,90°)代表方位角,相机正朝向指向坐标系原点,相机上朝向与z轴正方向一致或垂直于相机正朝向并指向z轴正方向;将体素场景模型与点云场景模型分别在6个视角下进行投影,即得到6对体素、点云深度图对;/n(1.4)深度图补全网络/n深度补全网络由基于跳连接的自编码器和解码器组成,其中,自编码器由两个分支组成,均由7个局部卷积层组成,第一个局部卷积层的卷积核大小为7x7,第二与第三层为5x5,其余均为3x3;第一个自编码器分支输入点云与体素深度图对以及输入深度图所对应的掩膜图,掩膜图分辨率与输入深度图分辨率一致,其中每个像素点有(0,1)两种取值,掩膜图中值为0的区域表示输入深度图的相对应区域没有信息,需要被补全,掩膜图中值为1的区域表示输入深度图的相对应区域完整不需要被补全,将上述点云与体素深度图对及相应的掩膜图输入至编码器的第一个分支,通过局部卷积的操作,最终得到输入深度图的高维度的特征表达;第二个自编码器分支输入初始彩色图像,在同样的局部卷积操作后,得到了彩色图像的高维特征表达,此时,将此二个高维特征表达串联至一起,一同输入至解码器中;/n解码器由7个局部卷积块组成,每个局部卷积块均由上采样层和卷积核大小为1x1的局部卷积层构成;将上述串联至一起的特征信息输入至解码器中,经过逐层的上采样以及局部卷积操作,最终解码器输出补全后的点云深度图;对6对随机视角下投影出的体素、点云深度图对分别进行上述补全操作,即得到6张与初始视角相邻的完整高精度点云深度图;/n(2)多视角点云融合模块/n首先,分别对6张补全后的深度图依据其相应的相机视角反投影为点云模型;其次,由于视角生成的统一性,6个分属于不同深度图的点云中点的坐标也被反投影至同一世界坐标系下;最后,直接将上述6个点云中的所有点提取出来,去除掉相互之间距离小于1-3毫米的点后,将剩余的点重新表达为1个点云,即为算法最终的点云重建结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910671271.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种散货料堆实时三维重建方法及系统
- 下一篇:动作捕捉的处理方法和处理装置