[发明专利]一种深度感知和多模态自动融合的RGB-D显著性目标检测方法有效
申请号: | 202011504271.2 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112651406B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 李玺;张文虎;孙鹏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/80;G06V10/56;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 傅朝栋;张法高 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 感知 多模态 自动 融合 rgb 显著 目标 检测 方法 | ||
1.一种深度感知和多模态自动融合的RGB-D显著性目标检测方法,其特征在于包括以下步骤:
S1、获取训练任务的图像数据集;
S2、分别建立用于提取彩色图像与深度图像的深度神经网络;
S3、建立用于多模态自动融合的超网络结构;
S4、基于所述的超网络结构进行神经网络结构搜索以确定模型结构;
S5、基于所述搜索结果进行预测模型训练,并得到最终的训练好的神经网络模型;
S6:将待检测的彩色图像与深度图像输入训练好的神经网络模型中,预测图中的显著性目标;
所述S2包括以下子步骤:
S21、对于每个单帧彩色图像Itrain,其特征提取的深度神经网络由VGG19网络结构与4个插入的DSAM模块构成;其中第i个DSAM模块以VGG19的第i个卷积模块的输出r′i作为输入,其输出作为VGG19的第i+1个卷积模块的输入,i∈{1,2,3,4};在i个DSAM模块中,首先根据对应的深度图像Dtrain的频数直方图将深度图像拆解为三个部分并通过最大池化层来得到与ri维度相同的三个子图像然后通过如下操作获得深度感知的彩色图像特征Ri:
式中Conv表示1×1的卷积模型;
四个DSAM模块的输出r1、r2、r3、r4以及VGG19的第五个卷积模块的输出r5共同构成彩色图像的多尺度特征,用于后续多模态多尺度的特征自动融合;
S22、每个对应的深度图像Dtrain,使用一个轻量级的深度神经网络对深度图像进行特征提取,该深度神经网络共由五个级联的卷积模块组成,其输出的多尺度深度图特征d1、d2、d3、d4、d5将用于后续多模态多尺度的特征自动融合;
所述S3中用于多模态自动融合的超网络结构具体构成如下:
S31、使用三个多模态单元来得到同尺度的多模态融合特征,每个单元将两对S2中获得的相邻的两种模态特征作为输入,并输出相应的多模态特征Cn:
Cn=MMn(rn+1,rn+2,dn+1,dn+2),n∈{1,2,3}
其中MMn()表示第n个多模态单元;
S32、使用四个多尺度单元来得到多尺度的多模态融合特征,每个单元以S31中的多模态特征或S2中的两种模态特征作为输入,并输出相应的多尺度特征Dm:
其中MSm()表示第m个多尺度单元;
S33、使用一个特征聚集单元来进行全局特征的高度聚集,以得到全局的多模态多尺度特征G:
G=GA(D1,D2,D3,D4)
其中GA()表示特征聚集单元;
S34、使用两个级联的结构加强单元来得到最终的显著性图,每个单元以前一单元的输出和S2中的两种模态特征为输入,来加强最终显著性特征的结构信息,并进行尺度对齐:
L1=SR1(θ(G),d2,r2)
L2=SR2(θ(L1),d1,r1)
其中θ()代表上采样操作,SRn代表第n个结构加强单元,L2为最终的显著性图预测结果
所述S4中基于所述的超网络进行神经网络结构搜索操作如下:
S41、针对S3中共同构成超网络的四种单元,将每一种单元内部都看做由X个节点构成的有向无环图,分别设置四种单元内的节点数;然后从候选操作集合Q中选择若干候选操作来构成节点之间的连接;节点xi、xj之间的连接关系表示为:
xj=∑i<jo(i,j)(xi)
其中o(i,j)()代表候选操作集合Q中候选操作的一种;
用Softmax函数将所有候选操作集加和在一起,构成单元内连续的搜索空间:
其中代表选择xi和xj之间的候选操作o的可学习权重参数;
整个搜索空间由四种单元的所有结构参数构成;
S42、在神经网络结构搜索阶段,用所述的超网络对数据集图像对进行预测,表示为:
其中F’()表示超网络函数,表示超网络的预测结果,ω’为超网络中模型的卷积网络参数,α′为超网络的结构参数;
以最小化超网络模型预测结果与人工标注的显著目标分割图误差为目标,对α′,ω′两种参数进行交替优化,得到固定的网络权重参数α*,其对应的网络分支即超网络结构最终的搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011504271.2/1.html,转载请声明来源钻瓜专利网。