[发明专利]一种基于时空胶囊网络的视频行为检测方法有效
申请号: | 202110177236.2 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112906549B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 王瀚漓;吴雨唐 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 胶囊 网络 视频 行为 检测 方法 | ||
本发明涉及一种基于时空胶囊网络的视频行为检测方法,包括以下步骤:1)特征提取:将给定输入视频分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别;3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比,本发明具有检测精度高、泛化能力强、训练速度快等优点。
技术领域
本发明涉及基于视频的行为检测领域,尤其是涉及一种基于时空胶囊网络的视频行为检测方法。
背景技术
视频作为最能还原人们生活的信息传播方式,在当今社会呈现爆炸式增长的态势,因此视频理解显得尤为重要,视频行为检测作为视频理解的关键任务之一,旨在描述视频中人物的行为类别以及行为发生位置,在智能驾驶、人机交互以及视频监控等领域具有非常广阔的应用前景,由于视频的时序特性,对视频信息的建模存在一定技术难度,相比于静态图像视觉任务的成果,视频行为检测任务依然存在一定的发展空间。
随着深度学习在计算机视觉领域的重大突破,基于深度模型的视频行为检测方法相继取得优秀成果。其中,依赖于其它视觉线索如光流等的检测方法在检测精度和速度上优势明显,然而此类方法的检测结果过多地受制于视觉线索的质量和计算速度,且当应用于大型数据集时,对于视觉线索的额外计算代价不容忽视。现有的一些方法仅采用3D卷积直接对视频特征进行时空域建模,但检测结果始终无法与前者相匹敌。因此,如何设计出一种不依赖于其它视觉线索且对视频表征能力强的视频行为检测方法,是目前亟待解决的研究问题之一。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于时空胶囊网络的视频行为检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于时空胶囊网络的视频行为检测方法,包括以下步骤:
1)特征提取:将给定输入视频划分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;
2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别;
3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果。
所述的步骤1)中,提取2D特征具体为:
构建2D卷积网络,通过2D卷积网络对包含D帧的帧序列的每一帧提取2D帧级特征,再将每一帧特征的维度进行扩展,按照扩展后的维度进行特征堆叠,得到对应输入帧序列的2D堆叠特征,即2D特征。
所述的步骤1)中,提取3D特征具体为:
构建3D卷积网络,通过3D卷积网络对包含D帧的帧序列直接进行时空域卷积,得到3D时空域视频特征,即3D特征,所述的3D特征与2D特征的特征维度相同。
所述的步骤1)中,特征整合具体为:
将2D特征与3D特征进行相加融合,采用矩阵相加操作结合两种模态的特征,得到的互补时空特征,所述的互补时空特征的特征维度与2D特征和3D特征的特征维度相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110177236.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大麻二酚衍生物及其制备方法
- 下一篇:一种超细氧化亚镍的制备方法