[发明专利]一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法在审
| 申请号: | 202211543971.1 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116309690A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 王栋;刘畅;卢湖川 | 申请(专利权)人: | 大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司 |
| 主分类号: | G06T7/223 | 分类号: | G06T7/223;G06T7/215;G06V10/26;G06V10/766;G06V10/80;G06N5/04 |
| 代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 transformer 结构 局部 全局 视角 兼容 目标 跟踪 方法 | ||
1.一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法,其特征在于,步骤如下:
步骤1:给定初始帧待跟踪目标的包围框binit={x,y,w,h},通过基于Transformer结构的局部-全局跟踪器获得当前视频帧的局部跟踪候选结果框和多个全局跟踪候选结果框,以及这些跟踪候选结果框的回归质量预测得分;
基于Transformer结构的局部-全局跟踪器结构具体如下:
局部-全局跟踪器的结构由联合的特征提取和特征融合网络、回归框预测网络和回归质量预测网络构成;联合的特征提取和特征融合网络由基于Transformer的ViT-Base结构构成;以第一帧目标位置向四周扩充一定比例,裁剪得到包含以待跟踪目标为中心的模板区域;以待跟踪目标在前一帧的位置在当前帧以一定比例扩充搜索区域,裁剪得到当前帧的目标搜索区域;目标搜索区域和模板区域分别以16为区间被划分成相同大小的若干图像块,目标搜索区域和模板区域的图像块经过编码后,编码的图像块对应被序列拼接后和可学习的查询目标特征分别送入Transformer编码层,完成特征提取和目标搜索区域特征与模板区域特征的融合;然后具有待跟踪目标分辨能力的目标搜索区域特征被送入回归框预测网络,获得预测的回归框;查询目标特征被作为输入送入回归质量预测网络;在回归框预测网络前,查询目标特征将对目标搜索区域特征加权以获得其与预测回归框的一一对应关系;从而得到局部和全局搜索区域内的目标跟踪结果及其预测得分;
其中,步骤1具体包含以下处理步骤:
(1)前处理:局部搜索区域需要将输入图像以上一帧跟踪结果为基准进行裁剪、缩放,使图片尺寸与网络输入尺寸相同;全局搜索区域需要将输入图像缩放并填充补边,使图片尺寸与网络输入尺寸相同;
(2)网络前向推理得到预测的跟踪候选结果框和其对应的回归质量预测得分;
步骤2:当局部跟踪候选结果框的回归质量预测得分高于设定阈值时,采用局部跟踪结果作为当前帧的最终跟踪结果;当局部跟踪候选结果框的回归质量预测得分低于设定阈值时,从全局跟踪候选结果框和局部跟踪候选结果框的多个结果中选择与第一帧给定的初始帧目标binit的特征向量距离最小的踪候选结果框作为当前帧的最终跟踪结果;特征向量由特征编码网络对跟踪候选结果框进行特征提取,每个跟踪候选结果框对应一个256维特征向量;其中,跟踪候选结果框的回归质量预测得分低于设定阈值τfilter的跟踪候选结果框被定义为低质量回归框,不参与最终跟踪结果的筛选;
步骤3:根据当前及历史帧的回归质量预测得分,决策当前帧跟踪状态是否适合更新动态模板;
将第t帧局部跟踪结果记作其回归质量预测得分记为第一帧的初始化目标框为binit,模板裁剪函数记作p(·),模型前向推理记作θ(·);则满足以下3个条件时,该帧状态用作动态模板更新;否则不更新;
其中,τhigh是预测得分阈值,τback是IoU阈值;
步骤4:每一帧执行步骤1-3至跟踪视频结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司,未经大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211543971.1/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





