[发明专利]一种面向多模态图像能见度检测的神经网络构建方法有效

申请号：	202110635322.3	申请日：	2021-06-08
公开（公告）号：	CN113283529B	公开（公告）日：	2022-09-06
发明（设计）人：	王晗;沈克成;刘佳丽;施佺	申请（专利权）人：	南通大学
主分类号：	G06V10/80	分类号：	G06V10/80;G06K9/62;G06V10/764;G06V10/82;G06N3/04;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	许洁
地址：	226000***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向多模态图像能见度检测神经网络构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向多模态图像能见度检测的神经网络构建方法，包括如下步骤：

步骤1）构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块；

步骤2）构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块；

步骤3）构建可见光-远红外双模态图像特征融合网络模块；

步骤4）将步骤1）可见光图像特征提取网络模块与步骤2）远红外图像特征提取网络模块输出的特征拼接，作为步骤3）可见光-远红外双模态图像特征融合网络的输入，串联组合成双模态能见度等级分类网络；

所述的步骤1）的具体内容为：

“可见光图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2，其中，输入层为尺寸224×224，通道数为3的可见光输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层；

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的大小为112×112×64的特征F_3×3与5×5卷积得到的大小为112×112×64的特征F_5×5进行拼接，得到大小为112×112×128的拼接特征F；然后，分别进行一个空间的全局平均池化和最大池化得到两个 1×1×128 的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为 128/r，r为系数，激活函数为 Relu，第二层神经元个数为 128，该两层的神经网络共享；再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加；

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层，具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量，然后，将其作用在卷积核上，达到可变形卷积的效果；

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的大小为56×56×128的特征F_3×3与5×5卷积得到的大小为56×56×128的特征F_5×5进行拼接，得到大小为56×56×256的拼接特征 F；然后，分别进行一个空间的全局平均池化和最大池化得到两个 1×1×256的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为 256/r，r为系数，激活函数为 Relu，第二层神经元个数为 256，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加，“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征；

所述的步骤2)的具体内容为：

“远红外图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2，其中，输入层为尺寸224×224，通道数为3的远红外输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层；

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的大小为112×112×64的特征F_3×3与5×5卷积得到的大小为112×112×64的特征F_5×5进行拼接，得到大小为112×112×128的拼接特征F；然后，分别进行一个空间的全局平均池化和最大池化得到两个 1×1×128 的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为 128/r，r为系数，激活函数为 Relu，第二层神经元个数为 128，注意，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加；

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积过程与卷积层类似，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层；具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量，然后，将其作用在卷积核上，达到可变形卷积的效果；

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的大小为56×56×128的特征F_3×3与5×5卷积得到的大小为56×56×128的特征F_5×5进行拼接，得到大小为56×56×256的拼接特征 F；然后分别进行一个空间的全局平均池化和最大池化得到两个 1×1×256的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为 256/r，r为系数，激活函数为 Relu，第二层神经元个数为 256，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个 Sigmoid 激活函数得到权重系数 Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加，“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南通大学，未经南通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110635322.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种低能见度环境地下车库视觉盲区安全检测方法
下一篇：侧向受力型塑料管道抗震固定吊架及使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向多模态图像能见度检测的神经网络构建方法有效

专利文献下载