[发明专利]基于全方位感知的伪装目标图像分割方法在审
申请号: | 202210167375.1 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114549567A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 杨鑫;梅海洋;周运铎;魏小鹏;朴海音 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06T7/13 | 分类号: | G06T7/13;G06T7/73;G06V10/82;G06V10/764;G06V10/80;G06V10/44;G06V10/28;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 隋秀文 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全方位 感知 伪装 目标 图像 分割 方法 | ||
1.一种基于全方位感知的伪装目标图像分割方法,其特征在于,步骤如下:
步骤1、构建伪装目标分割网络OPNet
伪装目标分割网络OPNet主要由特征提取器、一个金字塔定位模块和三个双重聚焦模块组成;
特征提取器的主干网络采用的是Conformer,通过双重网络结构即卷积分支和Transformer分支同时提取局部特征和全局表示,并通过功能耦合单元以交互方式融合局部特征和全局表示;
金字塔定位模块使用金字塔自注意力机制,金字塔定位模块的输入为从Conformer的卷积分支和Transformer分支中提取的局部特征C和全局表示T,T中包括N patch tokenembeddings Tp和1segmentation token embeddingsts;首先通过自适应平均池化和重塑操作将输入转换为一致的形状:
其中,[]e表示embedding维度上的串联操作;ψk表示一个k×k的卷积层;表示目标尺寸为n×n的自适应平均池化;表示变形操作;表示正则化层;表示激活函数;然后,使用元素级加法运算将两种特征融合:
Ffusion=Cdown+Tdown,
在这之后,将Ffusion反馈至联合依赖感知模块中以检测全局相关性:
其中,表示多头自注意力机制;表示多层感知机;
得到的Fjdp由两部分组成,分别为N patch token embeddingsFp和1segmentationtoken embeddingsfs;然后对Fjdp进行两种类型的变换,以生成两种类型的特征,分别用于增强局部特征和全局表示:
其中,是由双线性运算实现的上采样;给定中的目标大小n后,联合依赖感知模块仅在固定尺度上执行全局相关性感知;在特定尺度下,Ffusion中的每个patch tokenembeddings都是具有特定尺寸区域的表示;通过改变联合依赖感知模块中的n以实现多尺度依赖感知:
其中,[]c表示通道维度上的串联操作;和是联合依赖感知模块的输出局部特征和全局表示,其中中的n等于i;最后,通过如下方式生成金字塔定位模块的最终输出:
接下来三个双重聚焦模块将进一步处理Cppm和Tppm;
双重聚焦模块旨在帮助网络在解码阶段专注于候选区域,利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,它将前一个模块输出的局部特征Ch、全局表示E以及来自编码器的当前级别局部特征Ccenc作为输入,其中,全局表示E包含N patch tokenembeddings Ep和1segmentation token embeddings es;首先对更高级别的局部特征Ch和全局表示E进行通道聚焦,通过以下方式生成通道聚焦所需的联合向量:
Vjoint=[Vc,Vt]c,
其中,Vc和Vt分别是从Ch和Ep生成的焦点向量;然后分别获得局部特征和全局表示的通道注意力向量,并使用这两个向量来增强这两种类型的特征:
Tcf=[es,E′p]e,
其中,S是激活函数;和是分别用于增强Ccombined和Ep的向量;Ccf和Tcf分别是通道聚焦的局部特征和全局表示;然后进一步对Ccf和Tcf进行空间聚焦,获得空间焦点图:
Mc=ψ7(Ch),
其中,是一个token到图的生成器;Mc和Mt分别是从Ch和E生成的焦点图;Γ是一个线性投影,它通过一个全连接层将每个全局表示的维数减少到1;d表示一个全局表示的长度;和表示由三个全连接层实现的三个可学习的线性嵌入函数;然后进一步增强Ccf和Tcf:
其中,和分别是用于增强Ccf和Tcf的图;Csf和Tsf分别是空间聚焦的局部特征和全局表示;最后生成DFM模块的最终输出,即Cdfm和Tdfm:
其中,表示MHSA后跟MLP,具有两个残差连接,用来基于全局表示Tsf进一步探索全局依赖性;“双重”聚焦模块以两种方式构建,即它允许通道和空间聚焦,并且对局部特征和全局表示进行聚焦;因为局部特征具有更详细的信息,因此最后利用最后一个DFM的输出局部特征来预测OPNet的最终输出:
步骤2训练过程
在训练时,首先将数据集的训练集数据送入网络的特征提取器,提取的局部特征和全局表示送入金字塔定位模块;金字塔定位模块建立并增强全局依赖性,在局部特征与全局表示中定位伪装目标,随后将生成的局部特征和全局表示送入三个双重聚焦模块;双重聚焦模块利用局部和全局注意力机制来帮助完成伪装对象边界的描绘,最终获得精细的预测结果。
2.根据权利要求1所述的基于全方位感知的伪装目标图像分割方法,其特征在于,为了使网络更关注可能会预测错误的区域,将加权二元交叉熵损失lwbce和加权IoU损失lwiou合并,即为了促进培训过程,在三个DFM和最终输出中分别引入了Mc和Mt;整体的损失函数定义如下:
其中α、β和γ为平衡常数,设为1、1和2,以此引导OPNet能够根据输入图像更好地预测最终的伪装目标分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210167375.1/1.html,转载请声明来源钻瓜专利网。