[发明专利]基于级联神经网络的视频动作识别及定位方法有效
| 申请号: | 201811077637.5 | 申请日: | 2018-09-15 |
| 公开(公告)号: | CN109325435B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 周圆;李鸿儒;杨建兴;毛爱玲;李绰 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06V10/774;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
本发明公开了一种基于级联神经网络的视频动作识别及定位方,步骤(1)、生成候选区间并扩展,把候选区间分为三类;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F;步骤(4)、得到全局时域特征向量和全局空域特征向量f |
||
| 搜索关键词: | 基于 级联 神经网络 视频 动作 识别 定位 方法 | ||
【主权项】:
1.一种基于级联神经网络的视频动作识别及定位算法,其特征在于,该算法包括以下步骤:步骤(1)、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;步骤(4)、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;动作分类器与完整性分类器的总损失函数Lcls表达式为:
第一项
为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项
为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vn表示完整性分类器的输出;Pn表示动作分类器的输出,cn*表示分类标签,N为一个训练批次中训练样本的个数;n为一个训练批次中某一样本的编号;候选区间坐标调整器的损失函数Lreg为![]()
其中,
表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rn={Δloc′n,Δsize′n}表示网络预测的候选区间坐标调整至真实动作区间的调整量,
表示候选区间调整至真实动作区间真实需要的坐标调整量;locn表示候选区间的中心坐标,sizen表示候选区间的长度,
表示真实动作的中心坐标,
表示真实动作的长度,Δlocn′、Δsizen′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocn、Δsizen分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;步骤(6)、融合步骤(5)中动作分类器的输出Pn和完整性分类器的输出Vn,得到预测的分类得分向量
使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizen作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocn,size+Δsizen,即以取整后的loc+Δlocn帧为中心、宽度为取整后的size+Δsizen帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811077637.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种多特征的概率主题模型的图像场景分类方法
- 下一篇:人脸识别系统及服务器





