[发明专利]一种基于时空序列模型的视频行为识别系统及方法在审
申请号: | 202210403948.6 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114743144A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 张艳平;于永新 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/56;G06V10/62;G06V10/764;G06V10/82;G06K9/62;G06N3/08;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 序列 模型 视频 行为 识别 系统 方法 | ||
1.一种基于时空序列模型的视频行为识别系统,其特征在于,该系统包括亮度流采样模块、时间建模模块、空间建模模块和分类输出模块,其中:
所述亮度流采样模块,用于对视频文件或者视频流进行亮度数据采样,并作为神经网络的输入,其中:将视频文件或视频流进行解码,获得YCbCr颜色空间数据;对解码后的YCbCr数据进行分段和采样,并提取亮度分量数据;将连续3帧亮度分量数据叠加构成亮度流,作为神经网络的输入;
所述时间建模模块,用于对时空特征数据进行时间建模,其中:将时空特征数据输入核大小为1×1的二维卷积层,降低特征通道维度;将降维后的时空特征数据输入核大小为3的一维卷积层,进行时间建模;
所述空间建模模块,用于对时空特征数据进行空间建模,其中:将时空特征数据输入核大小为3×3的二维卷积层,进行空间建模;
所述分类输出模块将时空特征数据进行分类和融合,得到整个视频的分类结果,其中:将每段的时空特征数据输入全连接层,得到每段的分类结果;将所有段的分类结果进行平均融合,得到整个视频的分类结果。
2.一种基于时空序列模型的视频行为识别方法,其特征在于,该方法包括以下步骤:
步骤1、从视频文件或视频流获得YCbCr颜色空间数据,对YCbCr颜色空间数据进行分段和采样,并提取亮度分量数据;相关模型如下:
将得到YCbCr数据{f1,f2,...,fN}平均分成T段,每段包含的帧数n=N/T,然后从每一段中,随机采样连续3帧YCbCr数据,表达式如下:
{f1,f2,...,fN}={{f1,f2,...,fn}f{fn+1,fn+2,...,f2n},...,{f(T-1)n+1,f(T-1)n+2,...,fN}}
其中,S表示随机函数,k表示段,表示从第k段中随机采样的连续3帧YCbCr数据,N表示视频文件或者视频流的帧数;
步骤2、提取亮度数据并叠加:对于随机采样的连续3帧YCbCr数据分别提取亮度分量数据,并叠加构成亮度流数据,表达式如下:
其中,H表示对提取亮度分量数据,表示亮度分量数据,Yk表示将叠加构成的亮度流数据,h和w表示视频的宽和高,表示Yk为属于实数域的3×h×w矩阵;
得到整个视频文件采样数据X,表达式如下:
其中:
其中,T表示视频分割段数;
步骤3、时空特征数据提取:将亮度流数据输入7×7的二维卷积层,得到时空特征数据F,表达式如下:
F=K0*X
其中,K0表示核大小为7×7的二维卷积层,*表示卷积运算;
步骤4、降低特征通道维度:将时空特征数据F输入核大小为1×1的二维卷积层,降低特征通道维度,得到时空特征数据Fd,表达式如下:
Fd=K1*F
其中,K1表示核大小为1×1的二维卷积层,F表示输入的时空特征数据;
步骤5、时间建模:将时空特征数据Fd输入核大小为3的一维卷积层,得到时间建模Ft,表达式如下:
Ft=Kt*Fd
Init Kts.t.Ft=Fd
其中,Kt表示核大小为3的一维卷积层,Ft表示进行时间建模后的时空特征数据,InitKts.t.Ft=Fd表示Kt的参数被特殊初始化,使得Ft=Fd;
步骤6、空间建模:将时空特征数据Ft输入核大小为3×3的二维卷积层,得到空间建模Fs,表达式如下:
Fs=Ks*Ft
其中,Ks表示核大小为3×3的二维卷积层,Fs表示进行空间建模后的时空特征数据;
步骤7、恢复特征通道维度:将时空特征数据Fs输入核大小为1×1的二维卷积层,得到时空特征数据Fu,表达式如下:
Fu=K2*Fs
其中,K2表示核大小为1×1的二维卷积层;
步骤8、将上述步骤4到步骤7的过程循环N次,N根据实际情况设定,实际情况包括GPU内存大小、参数量大小、计算量大小、实时性要求和准确率要求;
步骤9、通过全连接层得到分段结果:将时空特征数据Fu输入全连接层,得到每段的分类结果zt,表达式如下:
zt=Z(Fk),1≤k≤T
其中,Z表示全连接层,Fk表示第k个时间段的时空特征数据,T表示视频分割段数,zt表示第t个时间段的分类结果;
步骤10、将所有段的分类结果z1,z2,...,zT进行平均融合;
步骤11、得到整个视频的分类结果L,表达式如下:
其中,Avg表示平均函数。
3.如权利要求1所述的一种基于时空序列模型的视频行为识别方法,其特征在于:所述步骤一具体包括以下处理:
对于压缩格式的视频文件和视频流,则需要先将视频文件或视频流进行解码,得到视频颜色空间YCbCr数据,表达式如下:
{f1,f2,...,fN}=Decode(input)
其中,Decode表示视频解码器,input表示输入的视频文件或视频流,N表示视频文件或者视频流的帧数,{f1,f2,...,fN}表示视频解码后得到YCbCr数据,对于使用YCbCr颜色空间的视频设备,可以跳过此步,直接得到YCbCr数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210403948.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气缸自动模式下手动操作的方法
- 下一篇:有机发光器件