[发明专利]一种基于时空序列模型的视频行为识别系统及方法在审

申请号：	202210403948.6	申请日：	2022-04-18
公开（公告）号：	CN114743144A	公开（公告）日：	2022-07-12
发明（设计）人：	张艳平;于永新	申请（专利权）人：	天津大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/56;G06V10/62;G06V10/764;G06V10/82;G06K9/62;G06N3/08;G06N3/04
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时空序列模型视频行为识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时空序列模型的视频行为识别系统，其特征在于，该系统包括亮度流采样模块、时间建模模块、空间建模模块和分类输出模块，其中：

所述亮度流采样模块，用于对视频文件或者视频流进行亮度数据采样，并作为神经网络的输入，其中：将视频文件或视频流进行解码，获得YCbCr颜色空间数据；对解码后的YCbCr数据进行分段和采样，并提取亮度分量数据；将连续3帧亮度分量数据叠加构成亮度流，作为神经网络的输入；

所述时间建模模块，用于对时空特征数据进行时间建模，其中：将时空特征数据输入核大小为1×1的二维卷积层，降低特征通道维度；将降维后的时空特征数据输入核大小为3的一维卷积层，进行时间建模；

所述空间建模模块，用于对时空特征数据进行空间建模，其中：将时空特征数据输入核大小为3×3的二维卷积层，进行空间建模；

所述分类输出模块将时空特征数据进行分类和融合，得到整个视频的分类结果，其中：将每段的时空特征数据输入全连接层，得到每段的分类结果；将所有段的分类结果进行平均融合，得到整个视频的分类结果。

2.一种基于时空序列模型的视频行为识别方法，其特征在于，该方法包括以下步骤：

步骤1、从视频文件或视频流获得YCbCr颜色空间数据，对YCbCr颜色空间数据进行分段和采样，并提取亮度分量数据；相关模型如下：

将得到YCbCr数据{f₁，f₂，...，f_N}平均分成T段，每段包含的帧数n＝N/T，然后从每一段中，随机采样连续3帧YCbCr数据，表达式如下：

{f₁，f₂，...，f_N}＝{{f₁，f₂，...，f_n}f{f_n+1，f_n+2，...，f_2n}，...，{f_(T-1)n+1，f_(T-1)n+2，...，f_N}}

其中，S表示随机函数，k表示段，表示从第k段中随机采样的连续3帧YCbCr数据，N表示视频文件或者视频流的帧数；

步骤2、提取亮度数据并叠加：对于随机采样的连续3帧YCbCr数据分别提取亮度分量数据，并叠加构成亮度流数据，表达式如下：

其中，H表示对提取亮度分量数据，表示亮度分量数据，Y^k表示将叠加构成的亮度流数据，h和w表示视频的宽和高，表示Y^k为属于实数域的3×h×w矩阵；

得到整个视频文件采样数据X，表达式如下：

其中：

其中，T表示视频分割段数；

步骤3、时空特征数据提取：将亮度流数据输入7×7的二维卷积层，得到时空特征数据F，表达式如下：

F＝K₀*X

其中，K₀表示核大小为7×7的二维卷积层，*表示卷积运算；

步骤4、降低特征通道维度：将时空特征数据F输入核大小为1×1的二维卷积层，降低特征通道维度，得到时空特征数据F_d，表达式如下：

F_d＝K₁*F

其中，K₁表示核大小为1×1的二维卷积层，F表示输入的时空特征数据；

步骤5、时间建模：将时空特征数据F_d输入核大小为3的一维卷积层，得到时间建模F_t，表达式如下：

F_t＝K_t*F_d

Init K_ts.t.F_t＝F_d

其中，K_t表示核大小为3的一维卷积层，F_t表示进行时间建模后的时空特征数据，InitK_ts.t.F_t＝F_d表示K_t的参数被特殊初始化，使得F_t＝F_d；

步骤6、空间建模：将时空特征数据F_t输入核大小为3×3的二维卷积层，得到空间建模F_s，表达式如下：

F_s＝K_s*F_t

其中，K_s表示核大小为3×3的二维卷积层，F_s表示进行空间建模后的时空特征数据；

步骤7、恢复特征通道维度：将时空特征数据F_s输入核大小为1×1的二维卷积层，得到时空特征数据F_u，表达式如下：

F_u＝K₂*F_s

其中，K₂表示核大小为1×1的二维卷积层；

步骤8、将上述步骤4到步骤7的过程循环N次，N根据实际情况设定，实际情况包括GPU内存大小、参数量大小、计算量大小、实时性要求和准确率要求；

步骤9、通过全连接层得到分段结果：将时空特征数据F_u输入全连接层，得到每段的分类结果z_t，表达式如下：

z_t＝Z(F_k)，1≤k≤T

其中，Z表示全连接层，F_k表示第k个时间段的时空特征数据，T表示视频分割段数，z_t表示第t个时间段的分类结果；

步骤10、将所有段的分类结果z₁，z₂，...，z_T进行平均融合；

步骤11、得到整个视频的分类结果L，表达式如下：

其中，Avg表示平均函数。

3.如权利要求1所述的一种基于时空序列模型的视频行为识别方法，其特征在于：所述步骤一具体包括以下处理：

对于压缩格式的视频文件和视频流，则需要先将视频文件或视频流进行解码，得到视频颜色空间YCbCr数据，表达式如下：

{f₁，f₂，...，f_N}＝Decode(input)

其中，Decode表示视频解码器，input表示输入的视频文件或视频流，N表示视频文件或者视频流的帧数，{f₁，f₂，...，f_N}表示视频解码后得到YCbCr数据，对于使用YCbCr颜色空间的视频设备，可以跳过此步，直接得到YCbCr数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210403948.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时空序列模型的视频行为识别系统及方法在审

专利文献下载