[发明专利]一种基于注意力引导机制的实时图像语义分割方法有效

专利信息
申请号: 202110366778.4 申请日: 2021-04-06
公开(公告)号: CN113066089B 公开(公告)日: 2023-07-11
发明(设计)人: 周全;刘嘉;强勇;王林杰;施慧民;孙振涵 申请(专利权)人: 南京邮电大学
主分类号: G06V10/26 分类号: G06V10/26;G06V10/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 姚姣阳
地址: 210000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 引导 机制 实时 图像 语义 分割 方法
【说明书】:

一种基于注意力引导机制的实时图像语义分割方法,包括下采样单元,上采样单元,极致高效残差模块,自适应注意力模块以及自适应融合模块。整体网络结构的特征提取单元为极致高效残差模块,使用自适应注意力模块ASAM有效减小了模块的计算复杂度,且能捕捉到有效像素点之间的相关性信息;并通过自适应融合模块ASFM将低级与高级特征连接起来,在语义分割中,将不同层次的特征连接起来;通过对以上五个组件进行堆叠,构建基于注意力机制的实时语义分割网络,其中编码器生成下采样的特征图,解码器对深层的特征图进行上采样以匹配输入图像分辨率,恢复图像的空间信息并向分割类别映射,最终生成与输入图像相同分辨率的语义分割结果图。

技术领域

发明属于图像语义分割技术领域,具体涉及一种基于注意力引导机制的实时图像语义分割方法。

背景技术

语义分割一直是计算机视觉中十分重要的领域,随着深度学习的流行,语义分割任务也取得了巨大进展。语义分割是图像的像素级理解任务,目的在于给输入图像的每一个像素点标注其所属的类别,任务是将图像分割成若干个有意义的目标,并为各个目标分配指定类型标签。自动驾驶和移动机器人的兴起,对实时语义分割算法的需求越来越强烈。在自动驾驶或者移动机器人的应用场景下,对语义分割算法一般有着额外的需求。一方面,算法要有实时性,最好实时性非常高,因为语义分割仅仅是整个视觉感知系统中预处理的一部分,语义分割的结果往往作为后续感知或融合模块的输入;另一方面,算法要占用比较低的内存,以允许部署在低成本的嵌入式设备中。

在目前的深度学习和计算机视觉算法中,卷积神经网络CNN应用广泛。虽然目前一些CNN模型都符合行业适用的标准,可以嵌入到商业产品中,但是标准的CNN算法仍然有局限性,在很多方面还可以改进。编解码网络是许多计算机视觉任务中的标准方法,特别是像素级预测任务,但是如果深入研究卷积的计算,这种架构的局限性就会浮出表面。例如,在3×3卷积中,卷积滤波器有9个像素,目标像素的值仅参照自身和周围的8个像素计算。这意味着卷积只能利用局部信息来计算目标像素,这可能会带来一些偏差,看不到全局信息。就导致模型在提取整合全局信息时遇到比较明显的两个问题:一方面,当研究需要捕获长范围特征依赖时,比如视频序列抓取某一类别的特征,就需要把网络拓得很深,而太深的网络模型往往计算量会剧增,导致运行速度慢,整体学习效率变低;另一方面,当网络的深度乃至宽度都有大幅度增长时,它的模块设计和梯度运算都需要精细地考虑在内,否则模型的准确度难以得到保障。

也有一些朴素的方法来缓解这个问题,比如,使用更大的卷积滤波器或有更多卷积层的更深的网络。然而,这种做法使得计算开销越来越大,结果也并没有得到显著的改善。为了实现对每个像素级分割任务的精准预测,Non-localNetwork被提出,主要核心思想就是用Self-attention来对特征的权重进行重标定,建模远程依赖。Non-local块需要计算输入图片内所有的像素点与其他像素点之间的关系,每一对关系都会生成attention map,再通过特征加权来整合所有点的特征,这样就可以得到与某一点相关的全局特征,最后把得到的全局特征融合到该点,整个流程完毕就建立了某一点甚至是某一类别的远程依赖,进而实现对图像的精准分割。

Non-Local在学术界的火热在于其确实能显著地改进效果,但根据在工业界的实际使用情况来看,巨大的计算开销使得Non-Local很难在实际工程项目中落地。

发明内容

本发明所要解决的技术问题是克服现有技术的不足,提供一种基于注意力引导机制的实时图像语义分割方法,以编解码结构为网络主干,采用极致高效残差模块EERM为特征提取单元,使用自适应注意力模块ASAM进行采样,实现模型分割准确性和效率之间的最佳平衡。

本发明提供一种基于注意力引导机制的实时图像语义分割方法,包括以下步骤;

步骤S1、对输入的原始图像进行预处理,获取分辨率为原始图像一半的降采样图像,该降采样图像作为编码器的输入图像;

步骤S2、利用下采样单元对编码器的输入图像进行两倍的下采样,获取通道数为16的第一特征图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110366778.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top