[发明专利]一种基于时空胶囊网络的视频行为检测方法有效
申请号: | 202110177236.2 | 申请日: | 2021-02-07 |
公开(公告)号: | CN112906549B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 王瀚漓;吴雨唐 | 申请(专利权)人: | 同济大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 胶囊 网络 视频 行为 检测 方法 | ||
1.一种基于时空胶囊网络的视频行为检测方法,其特征在于,包括以下步骤:
1)特征提取:将给定输入视频划分为多个包含帧数相等的帧序列,在每个时间步对每个帧序列分别提取2D特征和3D特征,并将两种特征进行整合,构造包含视频信息的互补时空特征;
2)行为分类:构建基于胶囊网络的分类子网,对互补时空特征进行行为理解,输出类别胶囊,具有最大激活值的类别胶囊对应的行为类别即为预测类别,分类子网具体采用3D形式的胶囊网络用以适配视频场景下的行为理解和分类任务,分类子网以互补时空特征作为输入,分别依次经过初级胶囊层、次级胶囊层和类别胶囊层处理,输出与行为类别数目相同的类别胶囊,在类别胶囊中,具有最大激活值的类别胶囊对应的行为类别作为分类子网预测出的行为类别;
3)行为定位:构建定位子网,并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图,在重构过程中,胶囊特征和2D特征通过跳跃连接的方式调整定位结果,具体为:
对除激活值最大的类别胶囊之外的其它类别胶囊进行掩膜处理,对掩膜处理后的类别胶囊依次经由全连接层、变维以及一组反卷积层,重构出与输入视频帧等大的像素级定位图,所述的一组反卷积层由依次连接的5层反卷积层构成,在通过5层反卷积对特征矩阵进行定位重构过程中,采用来自分类子网的胶囊特征以及来自2D卷积网络的2D特征通过跳跃连接的方式调整行为定位结果,其中,胶囊特征提供行为的视角不变性信息,2D特征为重构过程注入帧级空间位置信息和时序信息,具体为:
将来自初级胶囊层的姿态矩阵经过变维和3D卷积后,与第一层反卷积层输出的特征进行拼接,将来自次级胶囊层的姿态矩阵经过变维和3D卷积后,与第二层反卷积层输出的特征进行拼接,提供行为的视角不变性信息,并且,将来自2D卷积网络的2D特征通过矩阵相加的方式与第三层反卷积层输出的特征进行融合,为重构过程提供行为的帧级空间位置信息以及时序信息。
2.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,所述的步骤1)中,提取2D特征具体为:
构建2D卷积网络,通过2D卷积网络对包含D帧的帧序列的每一帧提取2D帧级特征,再将每一帧特征的维度进行扩展,按照扩展后的维度进行特征堆叠,得到对应输入帧序列的2D堆叠特征,即2D特征。
3.根据权利要求2所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,所述的步骤1)中,提取3D特征具体为:
构建3D卷积网络,通过3D卷积网络对包含D帧的帧序列直接进行时空域卷积,得到3D时空域视频特征,即3D特征,所述的3D特征与2D特征的特征维度相同。
4.根据权利要求3所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,所述的步骤1)中,特征整合具体为:
将2D特征与3D特征进行相加融合,采用矩阵相加操作结合两种模态的特征,得到的互补时空特征,所述的互补时空特征的特征维度与2D特征和3D特征的特征维度相同。
5.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,3D形式的胶囊网络中的每个胶囊均由一个姿态矩阵M和一个激活值a组成,分别表征特征实体的性质和存在的概率,下一层胶囊的姿态矩阵和激活值基于EM路由算法由上一层胶囊的姿态矩阵和激活值计算得到。
6.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,在训练阶段的掩膜处理过程中,仅保留真值类别对应的类别胶囊的值,将其它类别胶囊的值均置为0;在测试阶段的掩膜处理过程中,仅保留具有最大激活值的类别胶囊的值,将其它类别胶囊的值均置为0。
7.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法,其特征在于,在时空胶囊网络的训练过程中,总损失L由分类损失Lcls和定位损失Lloc两部分组成,则有:
L=Lcls+λLloc
其中,λ为用以降低定位损失的权重,使得定位损失不对分类损失产生支配性影响,ag为目标类别对应的类别胶囊的激活值,ah为第h个类别胶囊的激活值,m为边界值,在训练过程中,该边界值从0.2至0.9线性增长,用以使得目标类别对应的类别胶囊的激活值与其它类别胶囊的激活值差距逐渐拉大,(T,X,Y)为重构出的定位结果,T、X和Y分别对应定位结果的时域长度、高度和宽度,v为输入,ptij为定位结果中位于(t,i,j)位置的像素点的后验概率,为输入v在(t,i,j)位置的像素点对应的真值行为分数,Ftij为定位结果中位于(t,i,j)位置的像素点的激活值,在位于真值检测框内的像素点的激活值为1,其余为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110177236.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大麻二酚衍生物及其制备方法
- 下一篇:一种超细氧化亚镍的制备方法