[发明专利]基于特征压缩与特征编码网络的无人机对地目标跟踪方法在审
申请号: | 202210956096.3 | 申请日: | 2022-08-10 |
公开(公告)号: | CN115393742A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 孙翊铭;赵静;董园;王俊萍 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06V20/17 | 分类号: | G06V20/17;G06V10/44;G06V10/62;G06V10/75 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 压缩 编码 网络 无人机 目标 跟踪 方法 | ||
1.一种基于特征压缩与特征编码网络的无人机对地目标跟踪方法,其特征在于,包括如下步骤:
步骤1:对于给定的模板图像,利用特征提取骨干网络进行特征提取,得到模板特征向量;具体是:将所述模板图像输入骨干网络得到模板特征向量fz,其中Hz0,Wz0为输入模板图像高度与宽度;
步骤2:对于视频中第t帧搜索图像,利用特征提取骨干网络进行特征提取,得到第t帧搜索区域特征向量;具体是:将所述第t帧搜索图像输入骨干网络得到第t帧搜索区域特征向量其中Hx0,Wx0为搜索图像高度与宽度;
步骤3:将步骤1提取的模板特征向量输入模板特征压缩网络,得到压缩模板特征向量具体为:
首先对模板特征向量fz在空间维度上进行展平操作,得到展平后的模板特征向量fz1;对fz1进行多头交叉注意力计算,其计算式为:
其中是对fz1的位置编码,dz为模板特征向量中每个特征的维度,Nz为模板特征向量中特征的数目,为模板压缩嵌入向量,的维度为为压缩后模板特征的数目,为压缩模板特征向量,的维度为MultiHead为多头注意力机制;多头注意力机制的计算式如下:
其中Q,K,V为多头注意力机制的输入,W为学习参数矩阵,Cat(.)表示空间维度的拼接操作,Hi表示第i个注意力的计算结果,其计算如下:
其中softmax(.)为概率归一化函数,为学习参数矩阵;
步骤4:将第t-1帧搜索区域特征向量输入搜索区域特征压缩网络,得到压缩搜索区域特征向量具体为:
首先对在空间维度上进行展平操作,得到对进行多头交叉注意力计算,其计算式为:
其中Pres是对的位置编码,Pres的维度为dx为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,为搜索区域压缩嵌入向量,的维度为为压缩后搜索区域特征的数目,为压缩搜索区域特征向量,的维度为MultiHead为多头注意力机制;
步骤5:将步骤3得到的压缩模板特征向量步骤2提取的第t帧搜索区域特征向量和步骤4得到的压缩搜索区域特征向量输入基于注意力的特征搜索网络,得到搜索区域特征响应向量fres;具体为:
所述基于注意力的特征搜索网络由特征编码网络和特征解码网络构成;首先对搜索区域特征向量压缩搜索区域特征向量和压缩模板特征向量在空间维度上进行拼接操作,得到特征编码网络的输入ffeat;先对ffeat进行如下式的多头自注意力计算:随后将输入前馈网络得到特征编码网络输出其中将其在空间维度拆分得到编码的模板特征向量编码的压缩搜索区域特征向量和编码的搜索区域特征向量具体为fenc=Cat(ftemp,ftem,fscr);特征编码网络以编码的模板特征向量ftemp和编码的搜索区域特征向量fscr为输出;
所述特征解码网络以编码的模板特征向量ftemp和编码的搜索区域特征向量fscr为输入;随后以ftemp为键值输入,fscr为查询值输入进行交叉注意力计算,具体为:
fscr1=fscr+MultiHead(ftemp+Ptemp,ftemp+Ptemp,fscr),
其中Ptemp是对ftemp的位置编码,MultiHead为多头注意力机制;随后将fscr1输入前馈网络得到特征解码网络输出的搜索区域特征响应向量fres,计算如下:fres=fscr1+FFN(fscr1),其中FFN为前馈网络;
步骤6:将搜索区域特征响应向量fres输入预测网络,得到跟踪结果;具体为:
首先对搜索区域特征响应向量进行维度变换,得到空间维度数为2的搜索区域特征响应向图其中Hx0,Wx0为搜索区域特征响应向图的高度和宽度,Hx0=Wx0,Hx0×Wx0=Nx;所述预测网络为全卷积神经网络,具体为:fmap=FCN(fres2),其中FCN(.)为全卷积神经网络,为全卷积神经网络的输出;随后对fmap在特征维度进行拆分操作,得到左上角的角点概率图与右下角的角点概率图最后通过对左上角的角点概率图和右下角的角点概率图进行数学期望计算,得到跟踪结果,其坐标为其中分别为目标的左上角横坐标,左上角纵坐标,右下角横坐标,右下角纵坐标;数学期望计算具体为:其中为求和符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210956096.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于椭偏量测系统的自动聚焦装置
- 下一篇:一种测量口内扫描仪的精度偏差的方法