[发明专利]一种面向多模态图像能见度检测的神经网络构建方法有效
申请号: | 202110635322.3 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113283529B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 王晗;沈克成;刘佳丽;施佺 | 申请(专利权)人: | 南通大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06K9/62;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 许洁 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多模态 图像 能见度 检测 神经网络 构建 方法 | ||
1.一种面向多模态图像能见度检测的神经网络构建方法,包括如下步骤:
步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块;
步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块;
步骤3)构建可见光-远红外双模态图像特征融合网络模块;
步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接,作为步骤3)可见光-远红外双模态图像特征融合网络的输入,串联组合成双模态能见度等级分类网络;
所述的步骤1)的具体内容为:
“可见光图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的可见光输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的大小为112×112×64的特征F3×3与5×5卷积得到的大小为112×112×64的特征F5×5进行拼接,得到大小为112×112×128的拼接特征F;然后,分别进行一个空间的全局平均池化和最大池化得到两个 1×1×128 的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为 128/r,r为系数,激活函数为 Relu,第二层神经元个数为 128,该两层的神经网络共享;再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层,具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果;
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的大小为56×56×128的特征F3×3与5×5卷积得到的大小为56×56×128的特征F5×5进行拼接,得到大小为56×56×256的拼接特征 F;然后,分别进行一个空间的全局平均池化和最大池化得到两个 1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为 256/r,r为系数,激活函数为 Relu,第二层神经元个数为 256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加,“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征;
所述的步骤2)的具体内容为:
“远红外图像特征提取网络模块”的网络结构共有五层,分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2,其中,输入层为尺寸224×224,通道数为3的远红外输入图像;卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成,卷积核个数均为64,每个卷积层后接一个Relu激活层和BatchNormalization层;
多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将卷积层中3×3卷积得到的大小为112×112×64的特征F3×3与5×5卷积得到的大小为112×112×64的特征F5×5进行拼接,得到大小为112×112×128的拼接特征F;然后,分别进行一个空间的全局平均池化和最大池化得到两个 1×1×128 的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为 128/r,r为系数,激活函数为 Relu,第二层神经元个数为 128,注意,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征,并将这两个特征做元素相加;
可变形卷积层的输入为上一层的多尺度注意力修正融合特征,卷积过程与卷积层类似,卷积核个数为128,每个卷积层后接一个Relu激活层和BatchNormalization层;具体操作过程如下:首先,利用卷积的输出得到可变形卷积所需要的位移量,然后,将其作用在卷积核上,达到可变形卷积的效果;
多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合,具体操作如下:将可变形卷积层中3×3卷积得到的大小为56×56×128的特征F3×3与5×5卷积得到的大小为56×56×128的特征F5×5进行拼接,得到大小为56×56×256的拼接特征 F;然后分别进行一个空间的全局平均池化和最大池化得到两个 1×1×256的通道描述;接着,再将它们分别送入一个两层的神经网络,第一层神经元个数为 256/r,r为系数,激活函数为 Relu,第二层神经元个数为 256,这个两层的神经网络是共享的;再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc,Mc则对应不同卷积尺度下各通道域的重要性,将Mc与F相乘得到注意力修正后的多尺度拼接特征;最后,将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征,并将这两个特征做元素相加,“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110635322.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序