[发明专利]一种基于dropblock的单张彩色图片平面三维重建方法有效
申请号: | 201910609674.4 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110443883B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 郭渝慧;夏嘉璐;宋泓颐;邵镇炜;鄢腊梅 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06N3/0464;G06N3/0455;G06N3/08 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 陆永强 |
地址: | 310018*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于dropblock的单张彩色图片平面三维重建方法,包括以下步骤:步骤S1:使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型;步骤S2:使用经过训练的卷积神经网络对单张彩色图片进行示例分割和深度估计;步骤S3根据步骤S2得到的平面实例分割和深度估计融合一个三维模型。与现有技术相比,将单张彩色图片进行尺度归一化后,通过经dropblock方法训练好的卷积神经网络进行平面实例分割和深度估计,然后投影到三维空间完场三维模型的构建,从而能够提高计算速度和精度。 | ||
搜索关键词: | 一种 基于 dropblock 单张 彩色图片 平面 三维重建 方法 | ||
【主权项】:
1.一种基于dropblock的单张彩色图片平面三维重建方法,其特征在于,包括以下步骤:步骤S1:使用ScanNet数据集和Dropblock正则化方法训练卷积神经网络模型;步骤S2:使用经过训练的卷积神经网络对单张彩色图片进行示例分割和深度估计;步骤S3根据步骤S2得到的平面实例分割和深度估计融合一个三维模型;其中,步骤S1进一步包括以下步骤:步骤S11:获取ScanNet数据集;步骤S12:构建卷积神经网络模型;其中,该模型为在标准卷积神经网络ResNet‑101‑FPN的基础上扩展平面分割解码器、平面编码解码器和平面深度解码器,三个解码器均为1*1的卷积层;步骤S13:利用数据集训练卷积神经网络,训练过程中使用Dropblock正则化方法对网络参数权重进行调整;所述步骤S12进一步包括以下步骤:步骤S121:卷积神经网络模型的输入为单张彩色图片,其输出特征图的尺寸为256*192*64;步骤S122:通过平面分割解码器将特征图中的平面/非平面区域提取出来,使用如下交叉熵损失函数Ls:
其中,PL和NP分别表示属于平面和非平面的像素点的集合,pi表示图片中第i个像素点属于平面区域的概率,S=256*192为图片中像素的数量,sum()函数表示集合中元素的数量;步骤S123:将平面/非平面区域与ResNet‑101‑FPN的特征图进行掩膜,然后作为平面编码解码器、平面深度解码器的输入;步骤S124:通过平面分割解码器赋予图片中的每一个像素点一个编码值,代表其所属平面实例;其使用一种差异损失函数LC,包括两部分——近损失函数Lnear和远损失函数Lfar:LC=Lnear+Lfar近损失函数Lnear将每一个的平面实例上像素点的编码和其所在平面实例的编码均值拉近:
其中C表示一张图片中平面实例数量的真实值,SC表示一个平面实例中的元素,即像素,xj表示像素编码值,代表该像素归属的平面示例,μi表示一个平面实例的编码均值,符号∨表示取大运算;远损失函数Lfar则将不同的平面实例的编码均值推远:
λij=1.5‑|μi‑μj|+|1.5‑|μi+μj||步骤S125:使用均值漂移算法对掩膜过的像素编码聚类,得到
个平面实例;计算每一个像素在每一个平面上的概率Pij:
步骤S126:通过平面深度解码器预测图片中的每一个像素点的深度信息;假设三维空间中的平面法向量为![]()
表示1*3的实数向量;为了使每个平面的法向量都是唯一的,n计算方式如下:
其中
表示平面的单位法向量,方向是由从原点出发垂直指向平面;d表示平面到原点的垂直距离;步骤S127:使用如下的L1损失函数对每一个像素的深度估计进行监督:
其中ni表示第i个像素深度信息的预测值,
表示第i个像素深度信息的真实值;步骤S128:通过实例感知池化将像素级的深度信息和分支二得到的平面实例分割融合得到每一个实例平面的深度信息,即平面得法向量,公式如下:
其中
为归一化常数,根据不同的平面有不同的值;步骤S129:网络对平面实例的深度信息的预测,使用如下损失函数进行监督:
其中Di表示第i个像素点的真实深度信息,T为转置符;所述步骤S13进一步包括以下步骤:步骤S131:网络使用Dropblock作为其正则化方法,其中,Dropblock的核心工作是在特征图中随机生成γ个种子点,然后将种子点周围长宽为width=7的区域中的元素置0;γ的值可以通过以下公式计算得出:
其中k表示保留每一个激活单元的概率,取值为0.95;N表示卷积神经网络中特征图的数量;fi表示第i张特征图的尺寸;
表示向下取整;步骤S132:对于每一个特征图F,生成掩膜M,其尺寸与F一致;M中的γ个种子点均服从参数为γ的伯努利分布;对于M中每一个种子点,该点周围长宽均为width的矩形区域内的所有元素值置0;接着将掩膜M应用于特征图F上,即F=F*M;最后对特征图F归一化:
其中,sum(M)为M中所有元素的数量,zeros(M)表示M中值为0的元素数量;所述步骤S2进一步包括以下步骤:步骤S21:获取原始彩色图片的尺寸W和h,并将图片缩放成卷积神经网络输入所需的大小,缩放因子为sx=w/256和sy=h/192,缩放的坐标映射关系如下:
其中x0、y0为原始图像像素点的坐标,x、y为缩放后的图像上像素点的坐标;步骤S22:对于映射过程中可能产生的浮点坐标,通过最临近插值算法获得其像素近似值;算法工作将距离最近的输入图像的像素值作为该浮点数坐标的像素值的取值;步骤S23:将预处理后的单张彩色图片作为输入通过以进训练好的卷积神经网络进行预测,得到其平面实例和深度估计;所述步骤S3进一步包括以下步骤:步骤S31:对于在图像中坐标为(u,v),深度为d的像素,通过如下公式可得到其在三维空间中的坐标(x,y,z):
其中,K为相机的内参数矩阵,‑1表示矩阵求逆运算。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910609674.4/,转载请声明来源钻瓜专利网。