[发明专利]基于多尺度Transformer的单目标跟踪方法在审
申请号: | 202111340646.0 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114140495A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 何志伟;聂佳浩;伍瀚;高明煜;董哲康 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 transformer 目标 跟踪 方法 | ||
1.基于多尺度Transformer的单目标跟踪方法,其特征在于,该方法具体包括以下步骤:
步骤1、通过多尺度Transformer模块,将其应用于孪生网络提取的模板特征之后,以不同尺度的目标特征为监督信息,指导模板特征增强,得到增强后的模板特征T';
具体如下:
1)在模板特征图上以中心位置裁剪出3个空间大小不同的特征,三个特征的尺度分别为a×a、2a×2a和3a×3a;
2)通过3个通道不变的卷积层将不同空间的特征嵌入不同尺度的语义空间,最后将特征调制为2维的形式;多尺度Transformer的整体流程用下式表示:
3)在多头目标注意力模块中,通过1个卷积核大小为1×1的线性卷积层将所有的V和K的特征通道数C减少为C/4,达到加速模型的拟合的效果;
4)以模板特征作为Q,计算Q和K之间的相似性矩阵A;
其中,输出dk是特征的维度;
5)得到相似性矩阵之后,通过下式矩阵运算计算单个目标注意力块的输出特征O;
O=A*V (3)
其中,*表式矩阵乘法,输出
6)将目标注意力块扩展至多头,并经过求和、归一化处理,得到经过多尺度Transformer增强后的模板特征T';
T'=MultiHead(Q,K,V)=Norm(Concat(O1,O2,O3)Wo+Q) (4)
其中,Norm表示利用l2-Normalization将整个模板特征进行归一化调整;Wo是可学习的参数矩阵,将特征通道3C调整为输入特征通道数C;
步骤2、以上一帧的跟踪结果作为当前帧的基准框,随机生成多个尺度的候选框,候选框的随机的长宽比缩放因子区间为[1-α,1+α],并通过PrRoi pooling提取这些候选框的特征和增强后的模板特征T'中的目标特征;
步骤3、通过公共的数据集离线训练一个IoU-Net;将目标信息传递给候选框,通过向量调制法调整候选框的特征,并评估每个候选框的置信度分数;
步骤4、在线测试阶段,通过候选框位置信息的梯度,不断对其进行微调,迭代出更准确的边界框作为跟踪结果。
2.根据权利要求1所述的基于多尺度Transformer的单目标跟踪方法,其特征在于:所述的步骤1中的孪生网络的主干采用的是在ImageNet大数据集上预训练的ResNet-18网络,其参数共享于模板和后续图像分支;为了适用于跟踪任务,使用去除了全连接层的ResNet-18网络作为特征提取模块,其下采样率为16。
3.根据权利要求1所述的基于多尺度Transformer的单目标跟踪方法,其特征在于:所述的步骤2中的PrRoi pooling提取特征过程为:首先使用插值法来解决区域池化的量化问题;插值法用以下公式表示:
IC(x,y,i,j)=max(0,1-|x-i|·max(0,1-|y-j|)) (6)
其中,i,j是特征图像的坐标位置,IC(x,y,i,j)是插值系数;最后,使用二重积分来提取插值之后的特征区域,公式如下:
其中,F为特征图,左上角(x1,y1)和右下角(x2,y2)表示一个待提取特征的区域。
4.根据权利要求1所述的基于多尺度Transformer的单目标跟踪方法,其特征在于:所述的步骤3中的公共的数据集包括TrackingNet、LaSOT和COCO;训练过程中采样同一视频序列的两帧图像作为模型的输入图像对,图像均是以目标为中心裁剪得到的一个288×288区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111340646.0/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法