[发明专利]一种基于稀疏注意力模块的目标检测方法在审
申请号: | 202110484922.4 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113177546A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 陈春霖;凌强;李峰 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 注意力 模块 目标 检测 方法 | ||
本发明提出一种基于稀疏注意力模块的目标检测方法,具体以下步骤:步骤1:将卷积特征图输入到稀疏注意力模块中;步骤2:对于步骤1输入的卷积特征图进行稀疏位置采样操作,搜索最具表达能力的稀疏特征的位置集合;步骤3:对步骤1输入的卷积特征图进行卷积变换,利用稀疏特征的位置集合进行采样获得稀疏的键‑值的特征对,然后计算值特征与每一个键特征的注意力矩阵;步骤4):根据注意力矩阵对值特征进行加权求和,得到注意力融合的特征,将该注意力融合的特征与输入特征图进行直连相加,输出稀疏注意力模块增强后的特征图。
技术领域
本发明涉及数字图像处理以及目标检测、深度学习领域,尤其是一种基于稀疏注意力模块的目标检测方法。
背景技术
目标检测是一项基础的计算机视觉感知任务,在过去的几年中,许多先进的目标检测方法都基于卷积网络的。在传统卷积层的规范的局部线性加权操作下,难以有效获得全局的上下文信息。一些近来的工作着重于通过更加灵活的网络计算结构来增强上下文信息融合方式。现有技术已有采用一种可变形卷积层来动态地调整卷积核的采样位置,由于卷积核的采样位置可以分布到图像空间中较远的位置,因此可以更加有效地建模远程依赖,提取到环境的上下文信息。也有学者提出了一种新颖的非局部模块(non-localmodule)来对远程依赖关系进行建模,通过从输入特征图的任意两个位置上聚合上下文信息,该模块成功地实现了将自注意力机制应用到视觉任务中,例如视频分类,目标检测和关键点检测。在这里,每个位置都通过密集的注意力图与图像特征空间中所有其他位置相关连,对于某个位置,上下文信息将通过所有特征的加权和进行汇总融合。没有局限性,非局部网络可以在各种图像任务(例如视频分类,对象检测和关键点检测)中提高现有网络的性能。尽管非局部网络具有出色的性能,但它们却需要额外引入大量的计算量和GPU内存占用。这是因为非局部操作需要巨大的注意力图来描述输入特征图的任何两个位置之间的关系。例如,给定一个空间分辨率为H×W的输入特征图,则非局部操作将计算大小为(HW×HW)的注意力图,当输入特征图的空间分辨率增大时,所需的注意力图是呈平方倍数增大,因此所需的计算量和显存占用会很高。特别是对于物体检测而言,为了尽可能的检测输入图像中的所有不同尺度目标,输入图像的分辨率通常会比较大,因此网络中的卷积特征图通常具有较高分辨率。因此,在实际的应用中,基于非局部的检测网络会引入较高的计算复杂度,并且还将花费非常大的GPU内存。这种对内存不友好的计算机制限制了这种非局部网络的应用。
发明内容
为了解决上述技术问题,本发明提出了一种基于稀疏注意力模块的目标检测方法来捕获图像空间中的远程依赖关系,提高模型的上下文信息提取能力。通过在给定输入特征图的热力图中搜索局部响应峰值后,动态地选择一组稀疏点的位置来建模查询与关键元素之间的关系。利用所获得的稀疏点位置,本发明的稀疏注意力模块可以很好地建模远程依赖关系,并且大大提高了目标检测性能,而该模块是非常轻量级的,其引入的额外的GPU内存和计算开销都小于常规的非局部模块的2%。这种稀疏的注意力模块可以很容易地插入到各种目标检测框架中,对检测结果产生显著的提高,并且计算和内存占用的开销几乎可以忽略不计。
本发明所采用的一种稀疏注意力模块,用于提高检测网络提取特征的表达能力,提高模型的上下文信息提取能力。所提出的稀疏注意力模块可以很容易地插入到一般的检测框架中,取得速度与精度的更好的平衡。
本发明的技术方案为:一种基于稀疏注意力模块的目标检测方法,具体包括以下步骤:
步骤1:将卷积特征图输入到稀疏注意力模块中;
步骤2:对于步骤1输入的卷积特征图进行稀疏位置采样操作,搜索最具表达能力的稀疏特征的位置集合;
步骤3:对步骤1输入的卷积特征图进行卷积变换,利用稀疏特征的位置集合进行采样获得稀疏的键-值的特征对,然后计算值特征与每一个键特征的注意力矩阵;
步骤4):根据注意力矩阵对值特征进行加权求和,得到注意力融合的特征,将该注意力融合的特征与输入特征图进行直连相加,输出稀疏注意力模块增强后的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110484922.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种矿用煤炭筛分装置
- 下一篇:一种基于电流纹波的电感辨识方法