[发明专利]一种基于时空序列模型的视频行为识别系统及方法在审

专利信息
申请号: 202210403948.6 申请日: 2022-04-18
公开(公告)号: CN114743144A 公开(公告)日: 2022-07-12
发明(设计)人: 张艳平;于永新 申请(专利权)人: 天津大学
主分类号: G06V20/40 分类号: G06V20/40;G06V10/56;G06V10/62;G06V10/764;G06V10/82;G06K9/62;G06N3/08;G06N3/04
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李素兰
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 时空 序列 模型 视频 行为 识别 系统 方法
【权利要求书】:

1.一种基于时空序列模型的视频行为识别系统,其特征在于,该系统包括亮度流采样模块、时间建模模块、空间建模模块和分类输出模块,其中:

所述亮度流采样模块,用于对视频文件或者视频流进行亮度数据采样,并作为神经网络的输入,其中:将视频文件或视频流进行解码,获得YCbCr颜色空间数据;对解码后的YCbCr数据进行分段和采样,并提取亮度分量数据;将连续3帧亮度分量数据叠加构成亮度流,作为神经网络的输入;

所述时间建模模块,用于对时空特征数据进行时间建模,其中:将时空特征数据输入核大小为1×1的二维卷积层,降低特征通道维度;将降维后的时空特征数据输入核大小为3的一维卷积层,进行时间建模;

所述空间建模模块,用于对时空特征数据进行空间建模,其中:将时空特征数据输入核大小为3×3的二维卷积层,进行空间建模;

所述分类输出模块将时空特征数据进行分类和融合,得到整个视频的分类结果,其中:将每段的时空特征数据输入全连接层,得到每段的分类结果;将所有段的分类结果进行平均融合,得到整个视频的分类结果。

2.一种基于时空序列模型的视频行为识别方法,其特征在于,该方法包括以下步骤:

步骤1、从视频文件或视频流获得YCbCr颜色空间数据,对YCbCr颜色空间数据进行分段和采样,并提取亮度分量数据;相关模型如下:

将得到YCbCr数据{f1,f2,...,fN}平均分成T段,每段包含的帧数n=N/T,然后从每一段中,随机采样连续3帧YCbCr数据,表达式如下:

{f1,f2,...,fN}={{f1,f2,...,fn}f{fn+1,fn+2,...,f2n},...,{f(T-1)n+1,f(T-1)n+2,...,fN}}

其中,S表示随机函数,k表示段,表示从第k段中随机采样的连续3帧YCbCr数据,N表示视频文件或者视频流的帧数;

步骤2、提取亮度数据并叠加:对于随机采样的连续3帧YCbCr数据分别提取亮度分量数据,并叠加构成亮度流数据,表达式如下:

其中,H表示对提取亮度分量数据,表示亮度分量数据,Yk表示将叠加构成的亮度流数据,h和w表示视频的宽和高,表示Yk为属于实数域的3×h×w矩阵;

得到整个视频文件采样数据X,表达式如下:

其中:

其中,T表示视频分割段数;

步骤3、时空特征数据提取:将亮度流数据输入7×7的二维卷积层,得到时空特征数据F,表达式如下:

F=K0*X

其中,K0表示核大小为7×7的二维卷积层,*表示卷积运算;

步骤4、降低特征通道维度:将时空特征数据F输入核大小为1×1的二维卷积层,降低特征通道维度,得到时空特征数据Fd,表达式如下:

Fd=K1*F

其中,K1表示核大小为1×1的二维卷积层,F表示输入的时空特征数据;

步骤5、时间建模:将时空特征数据Fd输入核大小为3的一维卷积层,得到时间建模Ft,表达式如下:

Ft=Kt*Fd

Init Kts.t.Ft=Fd

其中,Kt表示核大小为3的一维卷积层,Ft表示进行时间建模后的时空特征数据,InitKts.t.Ft=Fd表示Kt的参数被特殊初始化,使得Ft=Fd

步骤6、空间建模:将时空特征数据Ft输入核大小为3×3的二维卷积层,得到空间建模Fs,表达式如下:

Fs=Ks*Ft

其中,Ks表示核大小为3×3的二维卷积层,Fs表示进行空间建模后的时空特征数据;

步骤7、恢复特征通道维度:将时空特征数据Fs输入核大小为1×1的二维卷积层,得到时空特征数据Fu,表达式如下:

Fu=K2*Fs

其中,K2表示核大小为1×1的二维卷积层;

步骤8、将上述步骤4到步骤7的过程循环N次,N根据实际情况设定,实际情况包括GPU内存大小、参数量大小、计算量大小、实时性要求和准确率要求;

步骤9、通过全连接层得到分段结果:将时空特征数据Fu输入全连接层,得到每段的分类结果zt,表达式如下:

zt=Z(Fk),1≤k≤T

其中,Z表示全连接层,Fk表示第k个时间段的时空特征数据,T表示视频分割段数,zt表示第t个时间段的分类结果;

步骤10、将所有段的分类结果z1,z2,...,zT进行平均融合;

步骤11、得到整个视频的分类结果L,表达式如下:

其中,Avg表示平均函数。

3.如权利要求1所述的一种基于时空序列模型的视频行为识别方法,其特征在于:所述步骤一具体包括以下处理:

对于压缩格式的视频文件和视频流,则需要先将视频文件或视频流进行解码,得到视频颜色空间YCbCr数据,表达式如下:

{f1,f2,...,fN}=Decode(input)

其中,Decode表示视频解码器,input表示输入的视频文件或视频流,N表示视频文件或者视频流的帧数,{f1,f2,...,fN}表示视频解码后得到YCbCr数据,对于使用YCbCr颜色空间的视频设备,可以跳过此步,直接得到YCbCr数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210403948.6/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top