[发明专利]一种基于跟踪-学习-检测的视觉目标跟踪方法有效
申请号: | 201810080582.7 | 申请日: | 2018-01-28 |
公开(公告)号: | CN108346159B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 李嘉锋;张时雨;卓力;张辉;马春杰 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/223;G06T7/262;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跟踪 学习 检测 视觉 目标 方法 | ||
1.一种基于跟踪-学习-检测的视觉目标跟踪方法,其特征在于:
整体流程:获取一帧图像后采用ImageNet预训练好的VGG-19卷积神经网络中的卷积层提取特征,然后通过相关滤波计算出响应图,进行多峰值检测,确定目标的所在位置;当此时的fmax和APCE与历史均值的差都小于某一值时,判定跟踪成功,然后更新模型,并在线训练检测器;否则,判定跟踪失败,然后不更新模型,同时调用检测器对跟踪器进行初始化;
学习部分:学习器利用深度学习中卷积神经网络的卷积层提取目标特征,其中卷积神经网络的卷积层采用ImageNet预训练好的VGG-19中的三个卷积层;
跟踪部分:跟踪器包含四个相关滤波器,其中三个是用来检测目标的位置,另一个为尺度滤波器用来检测目标的尺度变化;
检测部分:检测器由三个级联分类器构成,分别为方差分类器,随机森林分类器和最近邻分类器;其中随机森林分类器和最近邻分类器需要在线训练;
所述的整体流程,具体步骤如下:
步骤1在视频的第一帧手工标定或者从文档中读取目标的位置信息和尺度信息,并初始化检测器;位置信息和尺度信息以跟踪框的形式呈现;
步骤2将跟踪框的1.5倍大小提取的图像块送入VGG-19卷积神经网络,运算完成后提取Conv5-4,Conv4-4和Conv3-4产生的特征图;
步骤3利用三个深度特征初始化三个核相关滤波器;
步骤4在下一帧图像,通过前一帧跟踪框的位置,利用步骤2进行特征提取,利用三个相关滤波器分别进行相关滤波,得到三个响应图,将三个响应图进行线性加权求和得到一张响应图,查找响应的最大值fmax以及最大值的坐标作为新的目标位置;然后进行目标尺度估计,获取尺度响应最大值作为新的目标尺度;计算APCE值,当此时的fmax和APCE与历史均值的差都小于某一值时,判定跟踪成功,在新的跟踪框位置和大小按照步骤2提取特征,然后更新滤波器模型,并训练检测器;
步骤5当此时fmax或APCE与历史均值的差大于等于某一值时,判定跟踪失败,不进行滤波器模型更新,用检测器重新初始化跟踪器,返回步骤4;
步骤6重复步骤4、步骤5直至视频最后一帧;
所述的学习部分,具体步骤如下:
(1)通过跟踪框位置以及大小在当前帧获取一个1.5倍大小的图像块,然后将该图像块归一化到224×224分辨率大小,之后送入VGG-19卷积神经网络做运算,并按照图像块大小创建一个二维高斯分布,然后进行快速傅里叶变换得到
(2)运算完成后提取Conv5-4,Conv4-4和Conv3-4分别经过ReLU层产生的特征图,将特征图归一化到同一patch大小,并且对于每一个特征图按照第三个维度进行叠加,得到二维的特征图并进行快速傅里叶变换记为
所述的跟踪部分,具体步骤如下:
(1)在第t帧图像中,先根据t-1帧图像跟踪框位置和大小,利用学习器提取三个深度特征图然后分别与对应滤波器模型参数x(d)进行线性核相关运算,计算公式如下:
其中,z表示卷积后的特征图,x表示滤波器参数,kxz表示核相关运算,上标d表示是第d个特征图和滤波器参数,^表示快速傅里叶变换,⊙表示两个矩阵元素对应相乘,*表示复数共轭;
(2)然后利用线性核相关运算结果与滤波器模型参数α(d)计算三个响应图f(1),f(2),f(3),公式如下:
其中,f表示响应图,α是滤波器参数,表示离散傅里叶的逆变换;
(3)得到三个响应图后,进行线性加权求和得到第t帧的位置总响应图ft,p,并找到最大的响应点的位置p以及最大响应的值fmax,公式如下:
其中,ft,p是第t帧的位置总响应图,f(d)表示第d个响应图,Cd表示第d个线性加权系数;
(4)通过最大响应的位置,和在t-1帧的尺度大小S提取尺度估计的候选区域Z,构建尺度金字塔,计算尺度滤波器与金字塔的相关滤波运算得到响应图ft,s,并找到响应值最大相对应的尺度,作为第t帧的尺度;
(5)计算平均峰值能量APCE,计算公式如下:
其中,fmax和fmin分别表示响应的最大值和最小值,fw,h表示是(w,h)位置上的响应值;
(6)当fmax或APCE与历史均值的差大于等于某一值时,判定跟踪失败,不进行滤波器模型更新;反之,判定跟踪成功,在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为然后更新滤波器模型参数x(d)和α(d),并训练检测器,更新滤波器模型公式如下:
其中,kxx表示核相关滤波运算,和分别表示当前帧和前一帧的滤波器参数,和分别表示当前帧和前一帧的滤波器参数,η是学习率,λ是常数。
2.根据权利要求1所述的一种基于跟踪-学习-检测的视觉目标跟踪方法,其特征在于:
所述的检测部分,具体步骤如下:
检测器由方差分类器,集合分类器以及最近邻分类器三个级联分类器构成;方差分类器排除方差小于初始目标边界框方差50%的图像块,方差分类器通过下式计算图像块的灰度值方差:
D(x)=E(x2)-E2(x)(9)
其中,x表示图像块区域,D(x)表示图像块区域的灰度值方差,E(x)表示图像块区域的灰度值均值,E(x2)表示图像块区域灰度值平方的均值;
集合分类器含有n个基本分类器,基本分类器也称为决策树;这n个决策树构成了随机森林;集合分类器在初始化时,随机产生10组每组13个点对,然后对于每一个通过方差分类器的图像,进行点对的两两比较,生成相应的二进制编码,最后得到10个二进制编码,用来代表此图像块的特征,每一个二进制编码都有其各自的后验概率所代表,最后将十个后验概率的平均来判断图像块是否为正样本,定义后验概率公式为:
其中,mp和mn分别代表着正样本图像块和负样本图像块的个数;
最近邻分类器通过相关相似性度量对通过集合分类器的正样本进行进一步筛选,所用到的公式如下:
a)目标模型集合M
其中,p+表示目标的图像块,p-表示目标周围背景的图像块;将p+和p-添加至集合时,正样本是按照时间进行排序的;
b)正样本最近邻的相似度
其中,p是要添加到集合M的样本,是集合M中所有的正样本;
c)负样本最近邻的相似度
其中,是集合M中所有的负样本;
d)相关相似度
其中,S+表示正样本最近邻的相似度,S-表示负样本最近邻的相似度;
(1)在第一帧中,利用初始跟踪框的位置和尺度信息,通过仿射变换产生正负样本,其中正负样本标签是通过计算与初始跟踪框的重叠率得到的;
(2)利用正负样本训练集合分类器和最近邻分类器,并构建目标模型M;
(3)当跟踪器判别跟踪成功后,利用当前帧跟踪器产生的跟踪框的位置和尺度信息,通过仿射变换产生正负样本,再次训练集合分类器和最近邻分类器,更新后验概率以及目标模型M;
(4)当跟踪器判别跟踪失败后,检测器通过21种尺度的扫描窗口对当前帧进行扫描具体过程为,扫描窗口尺度的缩放比例为1.2,共有21种尺度变换,水平步长系数是初始目标边界框宽度的10%,垂直步长系数是初始目标边界框高度的10%,最小的边界框的大小是20像素;将扫描产生的图像块送入三个级联分类器,然后将与模型相似度最高的图像块作为含有目标的图像块,输出此图像块的大小和坐标作为当前帧跟踪框的位置和尺度;然后对跟踪器进行初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810080582.7/1.html,转载请声明来源钻瓜专利网。