[发明专利]一种基于动态特征选择的RGB-D显著目标检测方法在审
| 申请号: | 202110586099.8 | 申请日: | 2021-05-27 |
| 公开(公告)号: | CN113392727A | 公开(公告)日: | 2021-09-14 |
| 发明(设计)人: | 颜成钢;温洪发;孙垚棋;张继勇;李宗鹏 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 动态 特征 选择 rgb 显著 目标 检测 方法 | ||
1.一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤如下:
步骤(1)、构建目标检测网络模型;
所述的目标检测网络模型采用编码器-解码器结构;编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征;对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测;
步骤(2)、通过跨模态全局上下文模块CGCM粗略定位显著目标;
步骤(3)、通过动态选择模块DSM选择和融合跨模态特征,即RGB和深度图,优化和强化跨级别、多尺度的混合特征;
DSM包括两个子模块:跨模态注意力模块CAM和双向门控池化模块BGPM;跨模态注意力模块CAM高效地突出了空间特征,实现了跨模态信息间的融合;双向门控池化模块BGPM自主地实现了不同特征间的融合。
2.根据权利要求1所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤(1)具体方法如下;
所述的目标检测网络模型采用编码器-解码器结构;其中,编码器部分包含一对基于ResNet-50的对称双流主干网络,分别用于提取多级的RGB图像外观特征和深度图空间特征;对于对称双流主干网络的每一个分支,丢弃了最后的池化层和全连接层,仅仅保留了5级卷积块,分别进行了2、4、8、16、16倍的下采样,并将各级通道数由{64,256,512,1024,2048}转换到了{64,128,256,512,512},从而实现了全卷积网络FCN的结构;对于解码器部分,采用动态选择模块DSM和跨模态全局上下文模块CGCM来进行显著性预测。
3.根据权利要求2所述的一种基于动态特征选择的RGB-D显著目标检测方法,其特征在于,步骤(2)具体方法如下:
对于分别来自RGB和深度分支的高级特征和首先使用参数共享的卷积操作将通道数转化为1,其中卷积核大小为1×1,步幅为1;对于RGB分支,使用Sigmoid函数将通道转换后的深度高级语义特征的值缩放至0到1,再与进行按元素相乘,得到交互后的特征并称之为模态间的注意力机制;随后,采用Conv-ReLU-Conv的结构进一步强化了深度的RGB特征,其中卷积核的大小均为1×1,并将使用Sigmoid函数归一化后的特征图与进行按元素相乘,得到强化后的RGB特征并称之为模态内的注意力机制;上述计算过程有效地实现了不同模态之间的信息交互,能够表示为,
其中,Sig(·)代表Sigmoid函数,C1×1(·)代表卷积核为1×1的卷积操作,CRC(·)代表Conv-ReLU-Conv结构,×表示按元素相乘;同样地,强化后的深度特征能够表示为,
由此,从全局的角度得到了深度引导的高级RGB特征和RGB引导的高级深度特征其包含了充足的纹理线索和几何信息;
为了进一步融合RGB特征和深度特征,将和进行拼接得到混合特征FID,能够表示为,
其中,[·]表示级联操作;同时,引入空间注意力机制,其沿通道轴应用均值池化和最大池化操作,并将它们拼接起来以有效地定位显著目标;最终,CGCM生成了跨模态的、能够充分表达全局上下文信息的混合特征FC,能够计算为,
Fe=Cl×1(FID)XSig(C7×7([M(FID);A(FID)])), (4)
其中,Cn×n(·)代表卷积核为n×n的卷积操作,M(·)代表沿通道轴的最大池化操作,A(·)代表沿通道轴的均值池化操作;总体来说,CGCM保障了我们的模型能够进行准确的显著性预测,因为其不但融合了不同模态的高级语义特征,而且初步地凸显了显著区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586099.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种弹条整理机
- 下一篇:基于Fbank特征和MFCC特征融合的声纹识别方法





