[发明专利]一种利用多任务互补提高深度估计准确性的方法有效

申请号：	202010355040.3	申请日：	2020-04-29
公开（公告）号：	CN111612832B	公开（公告）日：	2023-04-18
发明（设计）人：	颜成钢;张杰华;楼杰栋;孙垚棋;张继勇;张勇东	申请（专利权）人：	杭州电子科技大学
主分类号：	G06T7/593	分类号：	G06T7/593;G06N3/0464;G06F3/048;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用任务互补提高深度估计准确性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用多任务互补提高深度估计准确性的方法，其特征在于将使用SFM系统得到的稀疏的深度图像作为辅助输入，与RGB图像一同输入到卷积神经网络，作为辅助线索提高深度估计的准确性，具体实现步骤如下：

步骤1：进行数据增强：

将已划分训练集和测试集的数据集中的所有RGB图像进行水平翻转并保存，使数据集的规模扩大一倍；通过SFM系统对将扩大后数据集中的RGB图像进行处理，得到稀疏深度图像；将稀疏深度图像和扩大后数据集中RGB图像一一对应，成为数据集的一部分；

步骤2、将RGB图像与稀疏深度图像分别输入到RGB去噪编码器与深度去噪编码器，分别得到编码后的关于稀疏深度图和RGB图像的特征，分别记作稀疏深度图特征d_feat、RGB图像R通道特征r_feat、RGB图像G通道特征g_feat、RGB图像B通道特征b_feat；

其中RGB去噪编码器结构如下：

输入层大小等于输入的RGB图像尺寸大小；隐藏层大小为1024个神经元，激活函数为relu激活函数，权值初始化方式为按正态分布随机初始化；输出层大小与输入层大小相同等于输入RGB图像的尺寸大小，权重初始化方式为按正态分布随机初始化，激活函数为sigmoid激活函数；

深度去噪编码器的结构为：

输入层大小等于稀疏深度图像尺寸大小；隐藏层大小为1024个神经元，激活函数为relu激活函数，权值初始化方式为按正态分布随机初始化；输出层大小与输入层大小相同等于输入的稀疏深度图像的尺寸大小，权重初始化方式为按正态分布随机初始化，激活函数为linear激活，即不做任何改变；隐藏层的输入为输入层的输出，隐藏层的输出作为输出层的输入；

步骤3、将步骤2所得特征d_feat、r_feat、g_feat、b_feat进行串联，即做一个点积操作，得到串联后的特征cancat_feat，将串联后的特征cancat_feat输入到下一卷积层，激活串联后的特征cancat_feat，卷积层输出共享特征；

所述卷积层结构为1024个神经元组成，激活函数为relu激活函数，权重初始方式为按正态分布随机初始化；卷积层输出的共享特征记为shared_feat；

步骤4、将共享特征shared_feat输入到解码层，解码层大小等同于稀疏深度图像尺寸大小，权重初始化方式为按正态分布随机初始化，激活函数为relu函数；解码层的输出为即为所要得到的深度图。

2.根据权利要求1所述的一种利用多任务互补提高深度估计准确性的方法，其特征在于：

对于RGB去噪编码器的输入层，输入为训练集中的单张RGB图像，输入层的输出端输出单目RGB图像给隐藏层，要求输入层的大小为W*H*1，为一卷积层，层名称上加以变量‘channel’以区分三个通道；W为输入RGB图像的宽，H为输入RGB图像的高，channel取值为r、g、b；隐藏层为1024个神经元的全连接层，激活函数为relu函数，权重初始化方式为按零均值正态分布随机初始化，层名称加一变量以区分不同通道的隐藏层；隐藏层激活后输出到输出层；输出层为W*H个神经元的全连接层，激活函数为sigmoid激活函数，权重初始化方式为按零均值正态分布随机初始化；输出层的输出再重整为W*H*1形状；

对于深度去噪编码器输入层，输入为SFM系统输出的训练集中的稀疏深度图像，输出端将输入的稀疏深度图像传递给隐藏层，要求输入层的大小为W*H*1，为卷积层，之后在输入到隐藏层之前先平铺，然后再输入到隐藏层；隐藏层为1024个神经元的全连接层，对平铺后的输入进行激活，权重的初始化方式为按零均值的正态分布随机初始化，激活函数为relu激活函数，隐藏层激活后输出到输出层，输出层为W*H个神经元的全连接层，权重初始化方式为按零均值正态分布随机初始化，激活函数为线性激活即不做改变，输出结果重整为W*H*1的形状。

3.根据权利要求2所述的一种利用多任务互补提高深度估计准确性的方法，其特征在于：

将训练集中的RGB图像和稀疏深度图像中的10％像素值置零，分别输入到RGB去噪编码器与深度去噪编码器，从输出层分别得到编码后的关于稀疏深度图和RGB图像的特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010355040.3/1.html，转载请声明来源钻瓜专利网。

上一篇：多连接器模块的导出设计方法及装置
下一篇：一种CC攻击的动态防御系统及其方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用多任务互补提高深度估计准确性的方法有效

专利文献下载