[发明专利]一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法在审
| 申请号: | 202211543971.1 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116309690A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 王栋;刘畅;卢湖川 | 申请(专利权)人: | 大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司 |
| 主分类号: | G06T7/223 | 分类号: | G06T7/223;G06T7/215;G06V10/26;G06V10/766;G06V10/80;G06N5/04 |
| 代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 transformer 结构 局部 全局 视角 兼容 目标 跟踪 方法 | ||
一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法。本发明的Transformer结构采用ViT‑Base的网络结构,将依据前一帧跟踪位置裁剪的局部搜索区域和全图搜索区域同时作为输入,两路搜索分支共享特征提取和特征融合网络的权重,实现在统一模型下的局部和全局视角目标跟踪。同时使用一个基于Transformer的特征编码网络获得跟踪框的特征向量,在局部跟踪结果的回归质量预测得分较低时,从全局和局部跟踪的多个结果中选择与第一帧给定目标的特征向量距离最小的跟踪框作为当前帧的最终跟踪结果;在局部跟踪结果的回归质量预测得分较高时,采用局部跟踪结果作为当前帧的最终跟踪结果。
技术领域
本发明属于深度学习、目标跟踪领域,涉及基于Transformer架构的分类算法ViT-Base,具体为一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法。
背景技术
给定视频初始帧的待跟踪目标状态(包括位置坐标和长宽等数据),目标跟踪算法将在后续的连续视频帧中跟踪该指定目标。目标不受种类限制,可以为任意选定的物体。针对长时段视频中目标可能出现的由遮挡、出画、快速运动等因素造成一段时间内在局部视野中不可见的情况,算法应该同时具备在全图区域内进行目标重检测的能力。大多数情况下,局部区域的目标连续运动跟踪和全局区域的目标重检测需要多个模块协作或依赖滑动窗机制完成,例如LTMU和SPLT算法。同时,对于在线更新的状态决策,当前算法多以固定时间间隔和置信度阈值组合提供决策线索,例如STARK和MixFormer算法,对于长视频更加具有更新风险。
发明内容
本发明旨在提供一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法,使得一个模型兼具短时跟踪场景下的连续跟踪能力和长时跟踪场景下的目标重检测能力。在局部跟踪结果置信度较低时,可以从全局和局部跟踪的多个跟踪结果中选择与第一帧给定目标的特征向量距离最小的跟踪框作为当前帧的最终跟踪结果;同时,动态模板更新能够提供时序维度上丰富的目标外观变化,提升跟踪的准确性,使得跟踪的综合性能得到提升。
本发明的技术方案为:
一种基于Transformer结构的局部和全局视角兼容的目标跟踪方法,步骤如下:
步骤1:给定初始帧待跟踪目标的包围框binit={x,y,w,h},通过基于Transformer结构的局部-全局跟踪器获得当前视频帧的局部跟踪候选结果框和多个全局跟踪候选结果框,以及这些跟踪候选结果框的回归质量预测得分;
基于Transformer结构的局部-全局跟踪器结构具体如下:
局部-全局跟踪器的结构由联合的特征提取和特征融合网络、回归框预测网络和回归质量预测网络构成;联合的特征提取和特征融合网络由基于Transformer的ViT-Base结构构成;以第一帧目标位置向四周扩充一定比例,裁剪得到包含以待跟踪目标为中心的模板区域;以待跟踪目标在前一帧的位置在当前帧以一定比例扩充搜索区域,裁剪得到当前帧的目标搜索区域;目标搜索区域和模板区域分别以16为区间被划分成相同大小的若干图像块,目标搜索区域和模板区域的图像块经过编码后,编码的图像块对应被序列拼接后和可学习的查询目标特征((learnable)object query)分别送入Transformer编码层,完成特征提取和目标搜索区域特征与模板区域特征的融合;然后具有待跟踪目标分辨能力的目标搜索区域特征被送入回归框预测网络,获得预测的回归框;查询目标特征被作为输入送入回归质量预测网络;在回归框预测网络前,查询目标特征将对目标搜索区域特征加权以获得其与预测回归框的一一对应关系;从而得到局部和全局搜索区域内的目标跟踪结果及其预测得分;
其中,步骤1具体包含以下处理步骤:
(1)前处理:局部搜索区域需要将输入图像以上一帧跟踪结果为基准进行裁剪、缩放,使图片尺寸与网络输入尺寸相同;全局搜索区域需要将输入图像缩放并填充补边,使图片尺寸与网络输入尺寸相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司,未经大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211543971.1/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





