[发明专利]基于孪生三维卷积神经网络的行为分类方法有效
申请号: | 201911103231.4 | 申请日: | 2019-11-12 |
公开(公告)号: | CN111027394B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 周圆;李鸿儒;李绰;李孜孜;杨晶 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 孪生 三维 卷积 神经网络 行为 分类 方法 | ||
本发明公开了一种基于孪生三维卷积神经网络的行为分类方法,步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;步骤3,计算得到总损失函数为,表达式为:L=Lsubgt;cls/subgt;+αLsubgt;flow/subgt;;步骤4,利用反向传播技术优化网络参数,使网络性能达到最优。本发明算法具有速度与准确率上的双重优势。
技术领域
本发明涉及视频语音理解邻域,特别涉及一种视频中行为的分类方法。
背景技术
行为分类是视频理解领域的重要分支,生成视频锦集、文字描述视频内容等更高层次的任务都以行为分类为基础。行为分类是一种通过提取视频的抽象语义信息并根据语义信息判断视频所包含的动作类别的技术。目前,视频分类问题尚无最优解,一类算法只利用了视频的空间特征,忽略了视频的时间特征,使得分类算法的效果不尽人意;另一类算法同时利用了时间与空间两种特征,这类方法通过光流场描述视频时间特征,并把时间特征抽象后用于行为分类,但是光流场的计算速度无法应用于实时行为分类的场景,并且光流场不是描述视频时间特征的最佳方法,基于光流场的行为分类算法的性能依旧有很大的提升空间。
随着深度神经网络技术的发展,许多新颖有效的框架可以提取和抽象不同种类的特征。
发明内容
本发明旨在提出一种基于孪生三维卷积神经网络的行为分类方法,该方法通过绕过光流场提取过程,以达到提升行为分类算法速度的目的;此外算法还将引入新的时间信息抽象方式,以达到提升行为分类算法性能的目的。
本发明的一种基于孪生三维卷积神经网络的行为分类方法,该方法包括以下步骤:
步骤1,调整图像帧的长、宽到孪生三维卷积神经网络要求的大小;
步骤2,把图像帧序列按连续16帧一组进行分组,把每组图像帧输入孪生三维卷积神经网络,提取抽象时间特征与抽象空间特征,把抽象时间特征输入到反卷积网络,得到光流场;
步骤3,拼接步骤2中得到的抽象时间特征与抽象空间特征,并把提取的一个视频中全部图像帧组的特征取算数平均,平均值输入分类器,获得视频中行为的类别的预测向量,与训练数据标签做运算得到第一损失函数Lcls,表达式如下:
其中,pclass表示类别的预测向量,a表示训练数据的标签向量,aj表示第j维的训练数据的标签向量a,j表示向量中的维度,N表示一个训练批次中视频的数量;
把步骤2中得到的光流场与训练数据的标签光流场做运算得到第二损失函数Lflow,表达式如下:
其中,(i,j)为光流场中像素点的坐标,I表示光流场中像素点坐标的集合,u,v表示网络预测的光流场在两个方向上的分量,其中u表示网络预测的光流场的水平分量, v表示网络预测的光流场的垂直分量,ug,vg表示标签光流场在两个方向的分量,其中 ug表示标签光流场的水平分量,vg表示标签光流场的垂直分量,Nf表示一个视频中图像帧的数量,N表示一个训练批次中视频的数量;
总损失函数为上述第一、第二两个损失函数的加权相加,表达式如下:
L=Lcls+αLflow
其中,α为平衡两个损失函数的权重;
步骤4,使用Adam优化器以及反向传播算法更新网络参数,直到总损失函数L 的值不再下降为止,得到最终的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911103231.4/2.html,转载请声明来源钻瓜专利网。