[发明专利]一种基于注意力引导机制的实时图像语义分割方法有效
申请号: | 202110366778.4 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113066089B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 周全;刘嘉;强勇;王林杰;施慧民;孙振涵 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 引导 机制 实时 图像 语义 分割 方法 | ||
1.一种基于注意力引导机制的实时图像语义分割方法,其特征在于,包括以下步骤;
步骤S1、对输入的原始图像进行预处理,获取分辨率为原始图像一半的降采样图像,该降采样图像作为编码器的输入图像;
步骤S2、利用下采样单元对编码器的输入图像进行两倍的下采样,获取通道数为16的第一特征图;
步骤S3、利用下采样单元对第一特征图进行两倍的下采样,获取通道数为64的第二特征图;
步骤S4、利用极致高效残差模块对第二特征图进行卷积操作;重复该卷积操作5次,每次采用相同的扩张率,扩张率为r=1,每一次卷积中卷积核个数均为64,获取通道数为64的第三特征图,第三特征图的分辨率和特征通道数与第二特征图相同;
步骤S5、利用下采样单元对第三特征图进行两倍的下采样,得到通道数为128的第四特征图;
步骤S6、利用极致高效残差模块对第四特征图进行卷积操作,重复该卷积操作16次,扩张率依次为r=1,2,5,9,1,2,5,9,2,5,9,17,2,5,9,17,每一次卷积中卷积核个数均为128,获取通道数为128的第五特征图,即编码器的输出;
步骤S7、利用上采样单元对第五特征图进行两倍的上采样,获取通道数为64的第六特征图;
步骤S8、利用极致高效残差模块对第六特征图进行卷积操作;重复该卷积操作两次,每一次卷积中卷积核个数均为64,获取通道数为64的第七特征图,第七特征图的分辨率和特征通道数与第六特征图相同;
步骤S9、利用自适应融合模块对第七特征图和第三特征图进行相加的特征融合操,获取通道数为64的第八特征图;
步骤S10、利用上采样单元对第八特征图进行两倍的上采样,获取通道数为16的第九特征图;
步骤S11、利用极致高效残差模块对第九特征图进行卷积操作;重复该卷积操作两次,每一次卷积中卷积核个数均为16,获取通道数为16的第十特征图,第十特征图的分辨率和特征通道数与第九特征图相同;
步骤S12、利用自适应注意力模块对第十特征图进行特征加强,获取通道数为64的第十一特征图;
步骤S13、利用上采样单元对第十一特征图进行两倍的上采样,并向分割类别映射,获取通道数为分割类别数C的特征图,即解码器的输出,作为最终的分割结果图,其分辨率与编码器的输入图像一致。
2.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法,其特征在于,所述步骤S1中,对输入的原始图像进行预处理的过程为:将原始图像缩放到原图尺寸的一半,对缩放后的图像进行左右翻转,再对其进行随机平移,随机平移范围为0-2个像素点,从平移后的图像中裁剪出尺寸为原始图像一半的图像,该降采样图像即作为编码器的输入图像。
3.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法,其特征在于,所述下采样单元由并行分支构成,并行分支一侧采用卷积核大小为3×3,卷积核个数为16-3=13,步长为2,则该侧分支输出特征图通道数为16-3=13;并行分支另一侧采用Max-Pooling,该侧分支输出特征图通道数为下采样单元输入通道数,即为3,然后将两个分支得到的特征图在通道上做连接,即通道叠加,作为下采样单元输出。
4.根据权利要求1所述的一种基于注意力引导机制的实时图像语义分割方法,其特征在于,所述自适应注意力模块对输入的特征图先经过一个1×1卷积进行线性映射得到特征;然后对处理后的Key分支的特征采用AdaptivePooling操作;所述AdaptivePooling操作对给定的任意输入,均可指定输出张量的大小,该操作可以将原始的C×N的矩阵进行了进一步的特征抽取,从而得到了C×S的特征矩阵,其中SN,可以大大减小计算复杂度和内存消耗;然后将Query获取的C×N特征矩阵转置为N×C,方便和Key分支的C×S的特征矩阵进行相似度计算,得到N×S的相关性矩阵;再利用Softmax函数进行归一化;Value分支同样经过AdaptivePooling操作获取采样后的C×S的特征矩阵,为了方便与N×C矩阵相乘,这里把该分支获取的C×S特征矩阵进行转置,最终输出N×C的特征图,最后再恢复成与输入一致的维度,在网络中将这个特征与原输入相加,得到图像特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110366778.4/1.html,转载请声明来源钻瓜专利网。