[发明专利]基于多尺度滑动窗口的非修剪视频行为识别预测方法有效
申请号: | 201810374982.9 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108615011B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 杨绿溪;陶文武;张珊;李春国;黄永明 | 申请(专利权)人: | 东南大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明针对非修剪视频中的行为识别问题,基于时间分割网络提出了一种多尺度滑动窗口集成方法。首先以固定的采样率采样出一定数量的片段,用训练好的TSN对各片段进行预测;然后以不同尺度的滑动窗口覆盖这些片段预测结果,每种尺度的各个窗口的预测结果为该窗口内的预测结果的最大值;接着,对于每个尺度各个窗口预测Top‑K池化生成该尺度窗口的预测结果;最后对来自不同窗口大小的聚合结果取平均作为整个视频的最终预测。相对于直接将剪切视频的平均池化方法应用于非剪切视频,本发明提供的多尺度滑动窗口方法可以有效定位行为位置和抑制无关背景的影响,是针对非修剪视频有效的预测方法。 | ||
搜索关键词: | 基于 尺度 滑动 窗口 修剪 视频 行为 识别 预测 方法 | ||
【主权项】:
1.基于多尺度滑动窗口的非修剪视频行为识别预测方法,具体步骤如下,其特征在于:步骤1:为了覆盖行为实例可以驻留的任何位置,以固定的采样率从输入视频中采样出一些片段,这些片段经过训练好的TSN输出相应的预测分数,对于长度为M秒的视频,以1FPS的采样率将采样到M个片段{T1,...,TM},对每个片段Tm应用TSN模型,将分别获得相应的空间流或时间流预测类别分数F(Tm);步骤2:然后,为了覆盖持续时间高度变化的行为片段,这里将一系列具有不同大小的时间滑动窗口应用于帧分数,针对M个预测分数,建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口,滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列;步骤3:每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数来表示,对于在第s秒开始的长度为l的时间窗口,所能覆盖的时间片段为{Ts+1,Ts+2,…,Ts+l},相应的预测分数为{F(Ts+1),F(Ts+2),…,F(Ts+l)},相应地,对于这个时间窗口的预测分数Ws,l计算为Ws,l=maxp∈{1,2,…,l}{F(Ts+p)};步骤4:为了减轻背景内容的干扰,相同尺度的窗口行为识别预测分数用Top‑K池化来聚合,由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间,所以Top‑K池化聚合模块对未修剪的视频识别非常有效,通过步骤3,我们将得到Nl个尺寸为l![]()
时间窗口,其中l为如上式所示,在应用前面提到的top‑K的时间窗口,其中K为如上式所示,应用前面提到的Top‑K池化方法对这些大小为l的Nl个窗口预测分数聚合,以此聚合的分数Gl作为所有尺寸为l的窗口聚合结果,Gl的计算如下式所示;
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选;步骤5:最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测,对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数,最后的分数为这5个聚合分数的平均,计算如下![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810374982.9/,转载请声明来源钻瓜专利网。