[发明专利]一种基于卷积神经网络的视频动作检测方法有效
申请号: | 201710177579.2 | 申请日: | 2017-03-23 |
公开(公告)号: | CN106897714B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 王文敏;李志豪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 11360 北京万象新悦知识产权代理有限公司 | 代理人: | 黄凤茹 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 视频 动作 检测 方法 | ||
1.一种视频动作检测方法,基于卷积神经网络模型,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络依次包括卷积层、时空金字塔池化层、全连接层和输出层;时空金字塔池化层在最后一个卷积层和第一个全连接层之间;所述卷积神经网络的输出层包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:
(一)在训练阶段,执行如下操作:
11)把训练视频整个输入到卷积神经网络模型中,得到特征图;
12)在训练视频中获取不同长度的片段,根据实际视频动作片段ground truth,挑选出正样本和负样本,作为训练样本;
13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;
14)把统一尺寸的特征输入到全连接层,通过定义损失函数获取损失值;再进行反向传播,调整模型中的参数,进行训练;
15)逐步降低训练的学习率,当训练损失不再下降时,得到训练好的模型;
(二)在检测阶段,执行如下操作:
21)把待检测视频整个输入到步骤15)所述训练好的模型中;
22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;
23)对统一尺寸的特征进行判别,根据类别分类输出层得到分类置信度;选择置信度最高的分类,得到视频中所发生动作的类别;并根据网络输出层输出的时间定位计算结果,得到动作发生的起始时间和结束时间;由此实现视频动作检测。
2.如权利要求1所述视频动作检测方法,其特征是,所述卷积神经网络模型采用三维卷积神经网络。
3.如权利要求1所述视频动作检测方法,其特征是,所述时空金字塔池化层分为n个层次,设定最后一层特征图的尺寸为W*H*T,按以下方法划分各层次的区域:
第1个层次为整个特征图,区域大小为W*H*T;
第k个层次,其中k>1且k≤n:将整个特征图划分为2k-1*2k-1*2k-1个区域,从前左上角开始划分,前左上角的(2k-1-1)*(2k-1-1)*(2k-1-1)个区域的大小为其余区域的大小在此基础上取所余,为
4.如权利要求1所述视频动作检测方法,其特征是,所述正样本和负样本采用交集比并集(Intersection-over-Union,IoU)方法进行划分。
5.如权利要求1所述视频动作检测方法,其特征是,所述损失函数定义为式1:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v) (式1)
其中,
Lcls(p,u)=-log pu;p是样本在K+1个类别上的概率分布,p=(p0...,pk);
tu∩v是tu和v的交集,tu∪v是tu和v的并集;
u是真实的类别;
v是样本所在时间轴上的真实位置,即开始时间和结束时间:v=(vb,ve);
tu是计算得到的位置
[u≥1]表示当u所代表的类别是动作时等于1,否则等于0;
λ为控制2个任务的损失值之间的平衡的参数,其取值范围为0到正无穷大。
6.如权利要求1所述视频动作检测方法,其特征是,在训练阶段采用随机梯度下降方式训练参数,直至收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710177579.2/1.html,转载请声明来源钻瓜专利网。