[发明专利]一种基于卷积神经网络的视频动作检测方法有效
申请号: | 201710177579.2 | 申请日: | 2017-03-23 |
公开(公告)号: | CN106897714B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 王文敏;李志豪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 视频 动作 检测 方法 | ||
本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。
技术领域
本发明涉及计算机视觉识别技术,尤其涉及一种基于卷积神经网络的视频动作检测方法。
背景技术
近些年来,几乎人手一部手机。每部手机上都有摄像头。加上互联网的发展和通信技术的进步,人们越来越喜欢拍摄视频,并且传播到互联网上,所以视频的数量呈爆发式增长,视频的储存和分析技术非常重要。
视频动作检测是指对视频中的动作进行分类,并且给出动作发生的开始时间和结束时间,示例如图1所示。近几年,视频动作识别任务取得了很大的进展,但是主要适用于已经裁剪好的视频,即视频中有且只有一个动作,没有冗余的帧。于是,学者开始着手研究未裁剪的视频,即视频动作检测任务。
视频任务过去所采用的主流方法是首先手工提取传统特征,而后结合建模方法。此类方法目前效果最好的是提取基于改进后的稠密轨迹(improved Dense Trajectory,iDT)的传统特征,结合费舍尔向量(Fisher Vector,FV)建模。
卷积神经网络(Convolutional Neural Network,CNN)在图片任务和视频动作识别任务上取得了很大的突破。于是,学者开始把卷积神经网络应用到视频动作检测任务上。有学者尝试用卷积神经网络提取视频中帧级别的特征,再结合传统特征。但这类方法中,二维的卷积神经网络难以挖掘视频中的运动信息,而运动信息对动作的建模和动作的时间边界(即开始时间和结束时间)的确定起着非常重要的作用。
针对这个局限,有学者运用三维(二维空间+时间)卷积神经网络(3D CNN),提出了分段卷积神经网络(Segment-CNN,S-CNN)。这类方法在视频中提取不同尺度的片段(Segment),用三个结构相同的网络对其进行处理,各网络特点分述如下:
第一个是候选网络(Proposal Network),对片段进行简单的二分类,剔除非动作片段,将动作片段输入第二个网络;
第二个是分类网络(Classification Network),给出片段的具体类别(包括类别“背景”)。用分类网络的参数初始化第三个网络;
第三个是定位网络(Localization Network),其损失函数(Loss Function)考虑了片段和实际视频动作片段(Ground Truths)的重合率,使得重合越多的片段的置信度越高,方便后处理确定动作的时间边界。
但是,有学者认为上述方法中的三个网络独立工作,阻碍了其间的信息共享,而且在训练阶段会耗费大量的运算资源和时间,同时,总体效果的上限受到候选网络的限制。于是,他们提出了将三个阶段的网络整合为一个网络,进行多任务学习。但是,这些方法都有一个局限:即要求网络输入的视频片段的尺寸一致,尤其是视频片段的帧数一致。由于上述现有方法均通过控制下采样的频率来获取不同时间长度的片段,例如每2帧取1帧,每4帧取一帧,每8帧取1帧……,而这些不同采样频率获得的片段通过同一网络结构来处理,因此会导致以下问题:
(一)稀疏采样会破坏动作内的连续性,使得3D CNN学习不到较好的运动特征;
(二)不同采样频率获取的视频片段共用一个网络进行训练,会增加类内差异性,使网络学习负担大,需要更复杂的网络,和更多的训练数据。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710177579.2/2.html,转载请声明来源钻瓜专利网。