[发明专利]基于多尺度Transformer的单目标跟踪方法在审
申请号: | 202111340646.0 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114140495A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 何志伟;聂佳浩;伍瀚;高明煜;董哲康 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 transformer 目标 跟踪 方法 | ||
本发明公开了基于多尺度Transformer的单目标跟踪方法。本发明首先从模板特征中裁剪出不同空间尺寸的表达特征,通过不同大小卷积核获取多尺度语义空间的目标特征信息,再利用该信息监督模板特征的增强,使之具有目标特征的感知能力。然后离线一个IoU‑Net来评估候选框的准确率,以目标的特征学习一个特征调制向量作用于候选框特征,调制后的特征经过泛化学习得到候选框的置信度分数。最后,通过多次的迭代优化,找到置信度最高的候选框作为跟踪结果。基于本发明提出的多尺度Transformer模块,使得ATOM跟踪方法的准确性有了一定提高,并且能够在复杂场景中更加精确地估计出目标的边界框。
技术领域
本发明属于单目标跟踪技术领域,具体涉及一种复杂环境下多尺度Transformer特征引导的单目标跟踪方法。
背景技术
单目标跟踪是计算机视觉中一项基本且富有挑战性的任务。给定第一帧中任意物体作为先验知识,跟踪器旨在后续帧定位这个目标并估计其边界框。近年来,单目标跟踪广泛应用于无人机、智能视频监控等领域,并取得了很大的进展,但不断累计的跟踪误差可能导致追踪器无法应对复杂的场景,如变形、遮挡等。因此,如何准确估计物体的边界框还有待研究。
早期的单目标跟踪器采用传统的多尺度方法进行边界框估计,仅利用前一帧的跟踪结果作为当前帧的基准边界框来进行多尺度测量。当目标在视频流中发生剧烈变形时,这种传统方法将一定程度限制跟踪的准确性。随着深度学习的发展,涌现了许多高精度的跟踪方法。现今主流跟踪器采用的边界框评估方法可以大致分为两大类:基于模板匹配和基于候选框评估的方法。采用第一种方法的跟踪器将以第一帧中的目标为中心,裁剪一个包含上下文信息的图像作为模板,利用孪生网络提取给定模板和后续帧的特征,再通过全卷积的方式学习与模板最相似的区域作为跟踪结果。这种边界框评估方法给跟踪器的准确率带来了极大的提升,可以有效估计出物体形变时的状态。然而,将上下文信息与目标共同作为模板的方法还存在一定缺陷,其中大量的上下文背景信息模糊了目标的位置、姿态等信息。因此,后续基于候选框的评估方法被提出来解决这个问题。此方法同样利用孪生网络来提取特征,不同的是,模板中给定目标的特征被明确地建模一个先验知识,再通过离线训练一个IoU-Net传播这个先验特征来指导候选框的置信度评估,最高置信度候选框将被作为跟踪结果。由于其目标特征明确的表征能力,这种基于候选框评估的方法可以有效克服一些背景干扰的场景。但当图像中出现相似的干扰物体时,跟踪器仍然存在漂移的情况,原因在于卷积神经网络的感受野远大于目标区域,使得目标特征夹杂冗余的信息,导致其表征能力不足。为了进一步提升跟踪准确率,本发明在基于候选框评估的方法上对单目标跟踪过程中目标的表征能力进行优化。
发明内容
本发明针对现有技术的不足,提出了基于多尺度Transformer的单目标跟踪方法,使用多尺度Transformer特征增强技术增强目标的表征能力。本发明以ATOM作为基准跟踪方法,实现了更加准确的跟踪结果。
基于多尺度Transformer的单目标跟踪方法,具体包括以下步骤:
步骤1、通过多尺度Transformer模块,将其应用于孪生网络提取的模板特征之后,以不同尺度的目标特征为监督信息,指导模板特征增强,得到增强后的模板特征T';
具体如下:
1)在模板特征图上以中心位置裁剪出3个空间大小不同的特征,三个特征的尺度分别为a×a、2a×2a和3a×3a;
2)通过3个通道不变的卷积层将不同空间的特征嵌入不同尺度的语义空间,最后将特征调制为2维的形式;多尺度Transformer的整体流程用下式表示:
3)在多头目标注意力模块中,通过1个卷积核大小为1×1的线性卷积层将所有的V和K的特征通道数C减少为C/4,达到加速模型的拟合的效果;
4)以模板特征作为Q,计算Q和K之间的相似性矩阵A;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111340646.0/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法