[发明专利]一种基于多时间步金字塔编解码器的目标跟踪方法有效
| 申请号: | 202011154966.2 | 申请日: | 2020-10-26 |
| 公开(公告)号: | CN112288776B | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 李平;张宇;蒋天翼;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多时 金字塔 编解码器 目标 跟踪 方法 | ||
本发明公开了一种基于多时间步金字塔编解码器的目标跟踪方法。本发明方法首先对含有模板帧的视频帧序列通过编码器获取时序编码特征,并对时序编码特征进行卷积与池化操作获得时序卷积核;然后构建全局卷积模块获得帧序列的长短期特征,并将时序编码特征与长短期特征输入构建的多尺度特征生成模型以捕获多尺度特征;最后通过分类支路与回归支路获得目标中心点及其所在区域信息,并据此获得最终的目标边界框。本发明方法利用多时间步编码器并行地快速处理连续的多个视频帧,通过全卷积模块刻画视频帧间的长短期时序关系,并充分融合不同尺度下的目标特征,能够有效捕捉跨度时间长、尺度变化大的目标,提高了目标跟踪的准确率和效率。
技术领域
本发明属于视频理解中的目标跟踪技术领域,涉及一种基于多时间步金字塔编解码器的目标跟踪方法。
背景技术
随着公共安全日益在人们的社会生产活动中占据重要的地位,遍布街头巷道、商场车站的视频采集设备构成了智慧城市的眼睛,对视频中的特定目标如人或物体的追踪是诸如嫌犯追踪、失踪人群定位等任务的基础需求。由此,高效地追踪目标重要目标成为视频处理中的重要研究任务。目标跟踪旨在对视频中的任意给定目标,确定其在视频帧序列中准确位置,一般用边界矩形框标识目标,在自动驾驶、增强现实、体育比赛、医学影像、海洋探索等领域有着广泛的应用。例如,在无人驾驶环境中,目标跟踪能够对周围环境中存在的主要目标进行追踪从而有效地确保车辆安全行驶,从而保障乘客人员的安全。目标跟踪主要遇到的困难包括视频的某个目标外观随着时间和拍摄光照发生变化、目标快速运动造成运动模糊、视频背景中存在相似物体干扰等,这些问题给目标跟踪带来很大挑战。
传统方法中基于相关滤波的目标跟踪算法由于其快速高效的特性成为目标跟踪早期算法的主流方向,但当视频的目标随着如形状、光照等发生变化且变化过于剧烈时,这类算法则无法有效地表征目标,从而导致跟踪失败。近年来兴起的深层神经网络为视频数据提供了强大的表征能力,如研究人员提出了基于相关滤波和卷积神经网络的判别相关滤波算法,即利用物体的外观特征在深层特征空间训练一个具有判别能力的相关滤波器,获得更加优越的是否为目标区域的判别性能。另外,基于孪生网络的目标匹配方法被广泛运用到目标跟踪领域,主要思想是通过构建孪生神经网络(即两个结构与参数相同的神经网络)分别将目标的模板图像(即通过给定目标边界框裁剪的帧图像)与视频帧图像投影至特征空间并计算两者的相似度,外观相似的像素点具有高得分,不相似的像素点具有低得分;最后基于相似度的得分确定目标在视频帧图像上的位置区域。
现有的目标跟踪方法存在许多缺点,例如基于相关滤波的算法能够很好地捕捉目标的运动变化但缺乏对目标尺度变化的适应能力,当目标的尺度变化较大时,这类算法无法准确估计目标的尺度;基于孪生网络的算法仅利用了目标的外观信息构建模型,未考虑目标的运动信息,难以适应背景中相似物体的干扰;基于运动模型的方法仅利用预测边界框在时序上的移动方向信息,但由于运动方向的不确定性导致仅能预测下一时刻的较大目标区域且区域范围较为模糊,而非自适应的学习目标运动信息。同时,基于孪生网络的目标跟踪算法一般预先离线训练卷积神经网络模型,在部署时不涉及模型的在线更新,所以难以有效利用线上产生的大量历史预测目标边界框以及神经网络的中间层特征。为了解决目标大小形状的剧烈变化以及难以确定目标区域位置等问题,迫切需要一种充分利用长短期时序信息且能有效捕捉目标尺度变化的方法,从而提升目标边界框的预测精度。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于多时间步金字塔编解码器的目标跟踪方法,利用时序上下文信息自适应地学习目标的运动模式,同时捕捉目标的不同尺度变化,以获得更优的相似物体判别能力,从而准确地跟踪视频中的给定目标。
本发明方法首先获取包含模板帧的视频数据集合,然后进行如下操作:
步骤(1).构建多时间步编码器,输入为视频帧序列与模板帧,输出为一组时序编码特征;
步骤(2).对时序编码特征进行卷积与池化操作,获得时序卷积核;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011154966.2/2.html,转载请声明来源钻瓜专利网。





