[发明专利]一种利用多任务互补提高深度估计准确性的方法有效
申请号: | 202010355040.3 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111612832B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 颜成钢;张杰华;楼杰栋;孙垚棋;张继勇;张勇东 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/593 | 分类号: | G06T7/593;G06N3/0464;G06F3/048;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 任务 互补 提高 深度 估计 准确性 方法 | ||
1.一种利用多任务互补提高深度估计准确性的方法,其特征在于将使用SFM系统得到的稀疏的深度图像作为辅助输入,与RGB图像一同输入到卷积神经网络,作为辅助线索提高深度估计的准确性,具体实现步骤如下:
步骤1:进行数据增强:
将已划分训练集和测试集的数据集中的所有RGB图像进行水平翻转并保存,使数据集的规模扩大一倍;通过SFM系统对将扩大后数据集中的RGB图像进行处理,得到稀疏深度图像;将稀疏深度图像和扩大后数据集中RGB图像一一对应,成为数据集的一部分;
步骤2、将RGB图像与稀疏深度图像分别输入到RGB去噪编码器与深度去噪编码器,分别得到编码后的关于稀疏深度图和RGB图像的特征,分别记作稀疏深度图特征d_feat、RGB图像R通道特征r_feat、RGB图像G通道特征g_feat、RGB图像B通道特征b_feat;
其中RGB去噪编码器结构如下:
输入层大小等于输入的RGB图像尺寸大小;隐藏层大小为1024个神经元,激活函数为relu激活函数,权值初始化方式为按正态分布随机初始化;输出层大小与输入层大小相同等于输入RGB图像的尺寸大小,权重初始化方式为按正态分布随机初始化,激活函数为sigmoid激活函数;
深度去噪编码器的结构为:
输入层大小等于稀疏深度图像尺寸大小;隐藏层大小为1024个神经元,激活函数为relu激活函数,权值初始化方式为按正态分布随机初始化;输出层大小与输入层大小相同等于输入的稀疏深度图像的尺寸大小,权重初始化方式为按正态分布随机初始化,激活函数为linear激活,即不做任何改变;隐藏层的输入为输入层的输出,隐藏层的输出作为输出层的输入;
步骤3、将步骤2所得特征d_feat、r_feat、g_feat、b_feat进行串联,即做一个点积操作,得到串联后的特征cancat_feat,将串联后的特征cancat_feat输入到下一卷积层,激活串联后的特征cancat_feat,卷积层输出共享特征;
所述卷积层结构为1024个神经元组成,激活函数为relu激活函数,权重初始方式为按正态分布随机初始化;卷积层输出的共享特征记为shared_feat;
步骤4、将共享特征shared_feat输入到解码层,解码层大小等同于稀疏深度图像尺寸大小,权重初始化方式为按正态分布随机初始化,激活函数为relu函数;解码层的输出为即为所要得到的深度图。
2.根据权利要求1所述的一种利用多任务互补提高深度估计准确性的方法,其特征在于:
对于RGB去噪编码器的输入层,输入为训练集中的单张RGB图像,输入层的输出端输出单目RGB图像给隐藏层,要求输入层的大小为W*H*1,为一卷积层,层名称上加以变量‘channel’以区分三个通道;W为输入RGB图像的宽,H为输入RGB图像的高,channel取值为r、g、b;隐藏层为1024个神经元的全连接层,激活函数为relu函数,权重初始化方式为按零均值正态分布随机初始化,层名称加一变量以区分不同通道的隐藏层;隐藏层激活后输出到输出层;输出层为W*H个神经元的全连接层,激活函数为sigmoid激活函数,权重初始化方式为按零均值正态分布随机初始化;输出层的输出再重整为W*H*1形状;
对于深度去噪编码器输入层,输入为SFM系统输出的训练集中的稀疏深度图像,输出端将输入的稀疏深度图像传递给隐藏层,要求输入层的大小为W*H*1,为卷积层,之后在输入到隐藏层之前先平铺,然后再输入到隐藏层;隐藏层为1024个神经元的全连接层,对平铺后的输入进行激活,权重的初始化方式为按零均值的正态分布随机初始化,激活函数为relu激活函数,隐藏层激活后输出到输出层,输出层为W*H个神经元的全连接层,权重初始化方式为按零均值正态分布随机初始化,激活函数为线性激活即不做改变,输出结果重整为W*H*1的形状。
3.根据权利要求2所述的一种利用多任务互补提高深度估计准确性的方法,其特征在于:
将训练集中的RGB图像和稀疏深度图像中的10%像素值置零,分别输入到RGB去噪编码器与深度去噪编码器,从输出层分别得到编码后的关于稀疏深度图和RGB图像的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010355040.3/1.html,转载请声明来源钻瓜专利网。