[发明专利]基于多注意力任务融合与边界框编码的孪生目标跟踪方法在审
| 申请号: | 202310555213.X | 申请日: | 2023-05-17 |
| 公开(公告)号: | CN116630850A | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 胡昭华;刘浩男;林潇;王莹 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陈月菊 |
| 地址: | 210044 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 任务 融合 边界 编码 孪生 目标 跟踪 方法 | ||
1.一种基于多注意力任务融合与边界框编码的孪生目标跟踪方法,其特征在于,所述孪生目标跟踪方法包括以下步骤:
S1,构建孪生目标跟踪网络,所述孪生目标跟踪网络包括特征提取网络、互相关匹配网络、分类回归网络、多注意力任务融合模块和边界框编码模块;
所述特征提取网络包括模板特征提取分支、搜索特征提取分支、第一多注意力融合模块和第二多注意力融合模块;所述第一多注意力融合模块对模板特征提取分支进行通道注意力和空间注意力增强操作,得到增强后的模板分支特征;所述第二多注意力融合模块对搜索特征提取分支进行通道注意力和空间注意力增强操作,得到增强后的搜索分支特征;所述第一多注意力融合模块和第二多注意力融合模块结构相同,表达式均为:
FMA=FCA·FSA=CA(FI)·DC(EC(FCA))
其中,FCA∈R(C×H×W)代表受通道注意力增强的特征图;FSA∈R(C×H×W)代表受空间注意力增强后的特征图;CA(·)代表通道注意力增强操作;DC(·)代表解码上采样操作;EC(·)代表编码下采样操作;FI∈R(C×H×W)代表多注意力任务融合模块的输入特征图;
所述边界框编码模块对模版图像进行边界框信息编码得到边界框编码特征;
所述互相关匹配网络对第一多注意力融合模块输出的模板特征和第二多注意力融合模块输出的搜索特征进行互相关匹配得到互相关特征,再对互相关特征与边界框编码特征进行融合,将融合得到的特征输入至分类回归网络,进行卷积层计算,得到分类得分图和回归预测图;所述回归预测图为预测目标中心位置距回归框四条边的偏移距离;所述分类得分图为预测目标前景得分,每个得分分别对应到回归预测图中四条边的偏移距离;
S2,采用离线方式,特征提取网络在训练样本集中随机抽取成对的模板图像和搜索图像,利用带动量的SGD随机梯度下降法进行梯度回传,优化网络参数,直至联合任务损失函数收敛;
S3,进行在线跟踪测试,将测试视频序列的第一帧图像进行裁剪,作为模版图像输入构建并训练好的孪生目标跟踪网络中,通过模版特征提取分支送入第一多注意力融合模块得到增强后的模板特征,同时,通过边界框编码模块对模版图像进行边界框信息编码得到边界框编码特征;将测试视频序列的后续每一帧以四倍于模板图像的区域进行裁剪,裁剪区域的中心为上一帧预测的目标中心点,将其作为搜索图像送入构建并训练好的孪生目标跟踪网络中,得到搜索特征;将得到的搜索特征和模板特征送至互相关匹配网络与边界框编码特征进行融合,将融合得到的特征输入至分类回归网络得到分类得分图和回归预测图,根据分类得分图中响应值最大的位置,结合回归预测图的偏移量,获得目标在视频序列帧上的最终位置。
2.根据权利要求1所述的基于多注意力任务融合与边界框编码的孪生目标跟踪方法,其特征在于,所述模版特征提取分支、搜索特征提取分支均是对原始ResNet50深层神经网络进行改进,将ResNet50深层神经网络第三层和第四层结构的步长设置为1,扩张卷积的大小设置为4,删除ResNet50第五层卷积层。
3.根据权利要求1所述的基于多注意力任务融合与边界框编码的孪生目标跟踪方法,其特征在于,所述模板图像的大小为127×127×3,搜索图像的大小为255×255×3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310555213.X/1.html,转载请声明来源钻瓜专利网。





