[发明专利]一种基于Transformer的旋转目标检测方法在审
申请号: | 202111505441.3 | 申请日: | 2021-12-10 |
公开(公告)号: | CN114240869A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 刘而云;莫妮卡 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/60;G06T5/50;G06T3/40 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 旋转 目标 检测 方法 | ||
本发明公开了一种基于Transformer的旋转目标检测方法。基于ResNet50网络设计特征提取模块,加入SPP模块;基于Transformer算法设计探测头,采用多尺度输入,叠加层嵌入和位置嵌入;改进自注意力模块,加入窗口机制并且随机选取向量进行全局计算以弥补全局信息,同时能起到加速作用;设计多种不同角度窗口,更加适合旋转目标的检测;增加角度预测值,预测角度的正弦及余弦值。本发明能有效提高旋转目标的检测准确性,并且优化了传统Transformer推理速度慢的问题。
技术领域
本发明属于图像处技术领域,具体涉及一种基于Transformer的快速旋转目标检测方法。
背景技术
近年来人工智能领域不断发展,目标检测一类的技术是其中的重要组成部分。目标检测的任务为找出图像中感兴趣目标的中心点以及其长宽,即预测一个包含目标的矩形。现实生活中的许多物品如商场中的货架、商店门口的文字标识等具有较大的长宽比并且角度任意。对于这些目标,更适合使用旋转目标检测的方法来进行目标检测,即预测一个带有角度的包含目标的矩形。相比起传统的目标检测,旋转目标检测多出了角度预测的任务,并且由于宽高比较大,相比传统目标需要更大的接收域。
近年来原本应用于自然语言处理领域的Transformer算法开始在计算机视觉领域得到应用。Transformer强大的建模能力以及自注意力机制使得其在视觉领域大放异彩。DETR是目前将Transformer应用于目标检测领域的性能较为优异的算法,然而由于Transformer本身计算量较大,因此推理速度较慢,对于一些要求实时性的应用场景无法适用。并且,自注意力机制对于全局信息关注的这一特性在应用于图像的目标检测问题时,会使得小目标检测效果较差。本发明将深度学习的骨架网络与Transformer进行结合,并且对自注意力机制进行了改进,在追求高精度的同时能达到较快的推理速度,适用于更多需要实时性的场景。
发明内容
为了解决背景技术中存在的问题,本发明提供了一种基于Transformer的快速旋转目标检测方法,能够兼顾速度以及性能。
本发明采取的技术方案如下:
本发明基于Transformer的快速旋转目标检测方法包括以下步骤:
1)采集场景中具有旋转目标的图像作为数据集;
2)构建用于图像旋转目标检测的网络结构;
所述的用于图像旋转目标检测的网络结构包括特征提取模块和改进后的Transformer;特征提取模块以ResNet50为骨架网络,在ResNet50骨架网络之后增加SPP模块;改进后的Transformer模块为对原始Transformer的自注意力机制模块进行改进,在自注意力机制模块加入随机点全局补偿设计以及旋转窗口设计;
3)根据数据集训练用于图像旋转目标检测的网络结构,获得旋转目标检测模型;
4)利用旋转目标检测模型对待检测图像进行旋转目标检测。
所述特征提取模块输出多种不同尺度的特征图,多种不同尺度的特征图分别为ResNet50中第三层、第四层、第五层的输出。
将特征提取模块输出的多种不同尺度的特征图叠加位置嵌入embpos(H,W) 和层次嵌入emblayer(n),具体为:
L′n=L″n+embpos(H,W)+emblayer(n)
embpos(H,W)=linear(H,W)
emblayer(n)=linear(n)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111505441.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矿用冲击地压防护装置
- 下一篇:一种垂直结构LED芯片及其制作方法
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法