[发明专利]一种基于时空胶囊网络的视频行为检测方法有效

申请号：	202110177236.2	申请日：	2021-02-07
公开（公告）号：	CN112906549B	公开（公告）日：	2022-10-25
发明（设计）人：	王瀚漓;吴雨唐	申请（专利权）人：	同济大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/764;G06V10/82;G06V10/80;G06N3/04;G06N3/08
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	杨宏泰
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时空胶囊网络视频行为检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于时空胶囊网络的视频行为检测方法，包括以下步骤：1)特征提取：将给定输入视频分为多个包含帧数相等的帧序列，在每个时间步对每个帧序列分别提取2D特征和3D特征，并将两种特征进行整合，构造包含视频信息的互补时空特征；2)行为分类：构建基于胶囊网络的分类子网，对互补时空特征进行行为理解，输出类别胶囊，具有最大激活值的类别胶囊对应的行为类别即为预测类别；3)行为定位：构建定位子网，并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图，在重构过程中，胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比，本发明具有检测精度高、泛化能力强、训练速度快等优点。

技术领域

本发明涉及基于视频的行为检测领域，尤其是涉及一种基于时空胶囊网络的视频行为检测方法。

背景技术

视频作为最能还原人们生活的信息传播方式，在当今社会呈现爆炸式增长的态势，因此视频理解显得尤为重要，视频行为检测作为视频理解的关键任务之一，旨在描述视频中人物的行为类别以及行为发生位置，在智能驾驶、人机交互以及视频监控等领域具有非常广阔的应用前景，由于视频的时序特性，对视频信息的建模存在一定技术难度，相比于静态图像视觉任务的成果，视频行为检测任务依然存在一定的发展空间。

随着深度学习在计算机视觉领域的重大突破，基于深度模型的视频行为检测方法相继取得优秀成果。其中，依赖于其它视觉线索如光流等的检测方法在检测精度和速度上优势明显，然而此类方法的检测结果过多地受制于视觉线索的质量和计算速度，且当应用于大型数据集时，对于视觉线索的额外计算代价不容忽视。现有的一些方法仅采用3D卷积直接对视频特征进行时空域建模，但检测结果始终无法与前者相匹敌。因此，如何设计出一种不依赖于其它视觉线索且对视频表征能力强的视频行为检测方法，是目前亟待解决的研究问题之一。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于时空胶囊网络的视频行为检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于时空胶囊网络的视频行为检测方法，包括以下步骤：

1)特征提取：将给定输入视频划分为多个包含帧数相等的帧序列，在每个时间步对每个帧序列分别提取2D特征和3D特征，并将两种特征进行整合，构造包含视频信息的互补时空特征；

2)行为分类：构建基于胶囊网络的分类子网，对互补时空特征进行行为理解，输出类别胶囊，具有最大激活值的类别胶囊对应的行为类别即为预测类别；

3)行为定位：构建定位子网，并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图，在重构过程中，胶囊特征和2D特征通过跳跃连接的方式调整定位结果。

所述的步骤1)中，提取2D特征具体为：

构建2D卷积网络，通过2D卷积网络对包含D帧的帧序列的每一帧提取2D帧级特征，再将每一帧特征的维度进行扩展，按照扩展后的维度进行特征堆叠，得到对应输入帧序列的2D堆叠特征，即2D特征。

所述的步骤1)中，提取3D特征具体为：

构建3D卷积网络，通过3D卷积网络对包含D帧的帧序列直接进行时空域卷积，得到3D时空域视频特征，即3D特征，所述的3D特征与2D特征的特征维度相同。

所述的步骤1)中，特征整合具体为：