[发明专利]基于级联神经网络的视频动作识别及定位方法有效

专利信息
申请号: 201811077637.5 申请日: 2018-09-15
公开(公告)号: CN109325435B 公开(公告)日: 2022-04-19
发明(设计)人: 周圆;李鸿儒;杨建兴;毛爱玲;李绰 申请(专利权)人: 天津大学
主分类号: G06V40/20 分类号: G06V40/20;G06V20/40;G06V10/82;G06V10/774;G06K9/62;G06N3/04;G06N3/08
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李素兰
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于级联神经网络的视频动作识别及定位方,步骤(1)、生成候选区间并扩展,把候选区间分为三类;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F;步骤(4)、得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,计算损失函数并优化网络参数;步骤(6)、得到最终预测结果即以取整后的loc+Δloci帧为中心、宽度为取整后的size+Δsizei帧的范围的第m类动作。与现有技术相比,本发明能够精准判断原始视频中从开始到结束的区间内是第几类动作。
搜索关键词: 基于 级联 神经网络 视频 动作 识别 定位 方法
【主权项】:
1.一种基于级联神经网络的视频动作识别及定位算法,其特征在于,该算法包括以下步骤:步骤(1)、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤(4)中全局时空特征提取网络的输入;步骤(4)、将尺寸不一的特征图时域特征图Ft和空域特征图Fs改变为固定尺寸的、结构化的特征图Ft′,Fs′,并利用全局时空域特征提取网络进行特征图Ft′,Ft′的全局时域特征向量和空域特征向量的提取,得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,分别进行损失函数的计算;动作分类器与完整性分类器的总损失函数Lcls表达式为:第一项为动作分类器的损失函数,只有第一类和第三类训练样本用于训练动作分类器;第二项为完成度分类器的损失函数,只有第一类和第二类训练样本用于训练完成度分类器;其中,Vn表示完整性分类器的输出;Pn表示动作分类器的输出,cn*表示分类标签,N为一个训练批次中训练样本的个数;n为一个训练批次中某一样本的编号;候选区间坐标调整器的损失函数Lreg为其中,表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0;smoothL1代表平滑的L1损失函数;rn={Δloc′n,Δsize′n}表示网络预测的候选区间坐标调整至真实动作区间的调整量,表示候选区间调整至真实动作区间真实需要的坐标调整量;locn表示候选区间的中心坐标,sizen表示候选区间的长度,表示真实动作的中心坐标,表示真实动作的长度,Δlocn′、Δsizen′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量,Δlocn、Δsizen分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量;根据损失函数Lreg计算误差,利用反向传播优化网络参数;步骤(6)、融合步骤(5)中动作分类器的输出Pn和完整性分类器的输出Vn,得到预测的分类得分向量使用极大值抑制的方法去除冗余的候选区间,最终使用候选区间中心点loc调整量Δloci和候选区间宽度size调整量Δsizen作为坐标调整器的输出,调整候选区间坐标,得到最终预测结果loc+Δlocn,size+Δsizen,即以取整后的loc+Δlocn帧为中心、宽度为取整后的size+Δsizen帧的范围的第m类动作,m为数值最大的得分向量O对应的维数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811077637.5/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top