[发明专利]融合目标检测与跟踪的视频半自动目标标注方法有效

专利信息
申请号: 201910963482.3 申请日: 2019-10-11
公开(公告)号: CN110929560B 公开(公告)日: 2022-10-14
发明(设计)人: 徐英;谷雨;刘俊;彭冬亮;陈庆林 申请(专利权)人: 杭州电子科技大学
主分类号: G06V20/40 分类号: G06V20/40;G06V10/80;G06V10/50;G06V10/56;G06V10/764;G06V10/82
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱亚冠
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 融合 目标 检测 跟踪 视频 半自动 标注 方法
【权利要求书】:

1.融合目标检测与跟踪的视频半自动目标标注方法,其特征在于该方法包括以下步骤:

步骤(1)、在视频的某个镜头中选定某一帧为初始帧,手动标记目标的初始位置和大小,确定目标的类别标签;

步骤(2)、初始帧之后的其他后续帧采用自动标注,具体是融合基于图像的目标检测算法和基于图像序列的视频目标跟踪算法估计目标在图像中的位置;具体是:

2.1采用YOLOV3对每一帧图像中目标进行检测并标识出检测框;

上述YOLOV3是将带有标签目标图像调整到固定尺度大小作为训练样本,对yolo-v3进行训练;其中YOLO层增加到4层,经过多尺度特征融合得到13×13,26×26,52×52,104×104四种不同尺度的不同感受野特征图;使用(116x90),(156x198),(373x326)三种先验框对13×13的特征图进行预测,检测较大的对象;使用(30x61),(62x45),(59x119)三种先验框对26×26的特征图进行预测,检测中等大小的对象;使用(10x13),(16x30),(33x23)三种先验框对52×52的特征图进行预测,检测较小的对象;使用新增加的(5x6),(8x15),(16x10)三种先验框,对104×104特征图进行预测,检测更小的目标;

2.2采用KCF相关滤波跟踪算法获取目标的跟踪框;

首先根据前一帧的目标位置和大小提取HOG特征,再通过傅立叶变换转到频域,把得到的频域特征通过高斯核函数映射到高维,并根据(1)式得到滤波模版α:

其中x表示样本的HOG特征,^表示傅立叶变换,g是中心为峰值的二维高斯函数,λ是正则化参数,用来控制训练的过拟合;kxx表示x在高维空间里的核自相关矩阵,其计算方式由(2)式给出:

其中σ是高斯核函数的宽度参数,控制了函数的径向作用范围,*表示复共轭,⊙表示点乘,表示傅立叶逆变换,c是HOG特征x的通道数;

为了能适应目标外观变化,滤波器需要进行在线更新;在第t帧图像上进行目标跟踪时,相关滤波器α的更新由下式给出:

其中η为更新参数;

为了能适应目标的尺度变化,当前帧的滤波器αt需进行尺度缩放,从而预测下一帧目标的尺寸;其中缩放的比例分别为[1.1,1.05,1,0.95,0.9];

在第t+1帧图像上的第t帧目标位置处,提取候选样本HOG特征z;结合上述每个尺寸缩放后的滤波器,对应的每个相关滤波输出响应图f见式(4):

其中m=(1,2,3,4,5),分别对应缩放的比例[1.1,1.05,1,0.95,0.9];x表示第t帧目标的HOG特征;

从上述5个响应图f最大值max(f)中筛选出最大值fmax,fmax对应的位置即为目标中心的位置,fmax对应的缩放比例即为目标大小,得到第t+1帧的跟踪框;

2.3融合目标检测和目标跟踪的结果来确定标注的目标框;

首先判断每一帧图像上是否含有检测框,若没有则目标框为跟踪框;若有则继续判断检测框是否只有一个,若是则计算跟踪框和检测框的IOU值,若该IOU值大于阈值,则目标框为检测框,并用该检测框初始化KCF跟踪算法,若否则为跟踪框;若检测框有多个则需要计算跟踪框和每一个检测框的IOU值,进而筛选出最大IOU值,若该最大IOU值大于阈值,则目标框为对应最大IOU值的检测框,并用该检测框初始化KCF跟踪算法,若否则为跟踪框;

IOU值是用来评价当前帧下跟踪框与每个检测框的重合度,其公式如下:

其中SI表示同一帧下跟踪框与每个检测框的重叠部分面积,SU表示同一帧下跟踪框与每个检测框的集合部分面积,所述的集合部分面积为跟踪框与检测框的总面积减去重叠面积;

步骤(3)、根据目标跟踪算法判断目标标注是否结束;

根据KCF相关滤波跟踪器的响应图f,判断max(f)是否小于设定的阈值θ并且峰值旁瓣比PSR小于设定的阈值θPSR时,即:

max(f)θandPSRθPSR (7)

若是则判断目标标注结束,转到步骤(4)进行关键帧的选择;反之则转到步骤(2),继续估计目标在下一帧图像中的位置;

PSR的计算公式如下:

其中max(f)为相关滤波响应图f的峰值,Φ=0.5,μΦ(f)和σΦ(f)分别是以f峰值为中心的50%响应区域的均值和标准差;

步骤(4)、计算当前镜头中每一帧目标的显著值;根据每一帧目标的显著值大小,提取设定数量的视频关键帧,得到目标标注结果;具体是:

4.1局部二值模式LBP提取图像的纹理特征,基本思想是定义在像素3*3的邻域内,以邻域中心像素为阈值,相邻的8个像素的灰度值与其进行比较,若某一周围像素点的灰度值大于中心像素值,则该周围像素点的位置被标记为1,否则为0;3*3邻域内的8个点经比较可产生8位二进制数,转化为十进制数即可得到中心像素的LBP值,并用这个值来反映该区域的LBP信息;具体计算公式如(8)式所示:

其中(x0,y0)为中心像素的坐标,p为邻域的第p个像素,jp为邻域像素的灰度值,j0为中心像素的灰度值;s(x)为符号函数:

4.2颜色显著性特征图的计算公式如下:

其中patch为目标框区域原图,patchgaussian为patch经过高斯核为5×5,标准差为0的高斯滤波处理之后的图像,||表示取绝对值,i表示通道数,(x,y)为像素坐标;

4.3针对每一帧图像目标框中目标边缘区域的像素点获取边缘显著性特征图

目标框中的目标边缘区域,像素值会发生“跳跃”,对这些像素值求导,在其一阶导数在边缘位置为极值,这就是Sobel算子使用的原理——极值处就是边缘;如果对像素值求二阶导数,边缘处的导数值为0;Laplace函数实现的方法是先用Sobel算子计算二阶x和y导数,再求和得到边缘显著性特征图,计算公式如下:

其中I表示目标框中图像,(x,y)表示目标框中目标边缘区域的像素坐标;

4.4将LBP纹理特征,颜色显著性特征,边缘显著性特征等特征进行平均加权融合,得到融合值mean,融合计算公式如下:

其中,分别表示第t帧中LBP纹理特征图、颜色显著性特征图、边缘显著性特征图中像素点(x,y)的值;

4.5颜色直方图变化值Dist通过计算初始帧选定目标区域和第t帧目标区域颜色直方图的巴氏距离得到,计算公式如下:

其中H0为初始帧手动标注选定目标框颜色直方图,Ht为第t帧自动标注目标框的颜色直方图,为H0经过式(14)运算后得出的值,为Ht经过式(14)运算后得出的值,n表示颜色直方图bin的总数,的计算公式由下式给出:

其中k=0或t;

4.6尺度变化值通过计算初始帧目标框和第t帧目标框的宽高变化得到的,计算公式如下:

其中为初始帧目标框的宽和高,和为第t帧目标框的宽和高;

4.7根据图像目标框区域的融合值、颜色直方图变化值、尺度变化值,第t帧的目标显著值的计算公式如下:

其中T表示视频的总帧数;

4.8将视频中每一帧目标的显著值St构建显著值折线图,求得所有峰值以及所对应的帧;

假设该视频有T帧,设定提取关键帧的数量为a个;显著值峰值的个数为b个,若ab,则先对峰值大小进行降序排序,提取前a个峰值对应的帧为关键帧,若baT,则提取所有峰值对应的帧,余下a-b个关键帧采用随机且不重复提取方式;若a>T,则所有视频帧作为关键帧;

步骤(5)、返回步骤(1),进行下一个视频镜头的目标标注。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910963482.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top