[发明专利]基于沙漏卷积的层次化动态建模的视频动作分类方法及应用在审
申请号: | 202211053069.1 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115424175A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 郝艳宾;谭懿;汪远;何向南;王硕 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 沙漏 卷积 层次 动态 建模 视频 动作 分类 方法 应用 | ||
1.一种基于沙漏卷积的层次化动态建模的视频动作分类方法,其特征是按如下步骤进行:
步骤1、视频数据提取与预处理:
从人物动作视频V中按照固定帧数均匀采样T帧关键帧图像,记为F=[F1,F2,…,Ft,…,FT],Ft表示第t个关键帧,T表示关键帧数;
采样第t个关键帧Ft在人物动作视频V中的前后各两个连续帧,并将Ft与其前后各两个连续帧表示为第t个片段表示Ft的前二帧,表示Ft的前一帧,表示Ft的后一帧,表示Ft的后二帧;
将第t个片段Ct中的每帧分辨率进行缩放后再从每帧中取出一个分辨率为H×W的图像块后进行归一化预处理,得到第t个输入视频数据张量从而得到人物动作视频V的输入视频数据张量C'=[C'1,C'2,…,C't,…,C'T],其中,H,W分别代表C't的高度与宽度,D代表C't的通道数;
步骤2、构建层次化沙漏卷积网络,包括:帧级动态信息捕捉网络,片段级动态信息捕捉网络以及分类网络;
步骤2.1、构建沙漏卷积:
所述沙漏卷积是由一组核大小为(p·|i|+1,p·|i|+1)的空间卷积以及一个核大小为K的时间卷积组成,其中,p为参数,i为时间偏移;
所述沙漏卷积对任一维度为的张量X进行处理,得到输出特征HgC(X),T'表示时间维度大小,H'表示高度,W'表示宽度,D'表示通道数,其中,输出特征HgC(X)的第t个特征HgC(X)t是利用式(1)得到:
式(1)中,Xt+i为张量X在T'时间维度上的第t+i个特输入特征,αi为时间卷积层的第i个参数,f为空间卷积函数,Wp·|i|+1,p·|i|+1为空间卷积层的参数;t∈[0,T'-1];
步骤2.2、所述帧级动态信息捕捉网络由ResNet50网络的第一卷积块与帧级动态信息捕捉模块组成:
ResNet50网络的第一卷积块为一个卷积核为a×a的空间卷积;
帧级动态信息捕捉模块由一个降采样层、一个沙漏卷积层、一个空间卷积层以及上采样层组成:
所述降采样层为一个核大小为b×b的空间平均池化层;所述沙漏卷积层由两个串联的沙漏卷积组成;所述空间卷积层为一个卷积核为a×a的空间卷积;所述上采样层用于将一个像素复制为四个相邻像素的上采样操作;
将所述人物动作视频V的关键帧图像F=[F1,F2,…,Ft,…,FT]输入到ResNet50网络的第一卷积块中进行处,并得到输出特征FS;
将人物动作视频V的输入视频数据张量C'=[C'1,C'2,…,C't,…,C'T]输入到帧级动态信息捕捉模块中,并依次经过降采样层,沙漏卷积层,空间卷积层以及上采样层的处理后,得到输出特征Ffm;
将FS与Ffm相加后得到帧级动态信息捕捉网络的输出Mfm;
步骤2.3、所述片段级动态信息捕捉网络由串联的四个卷积块组成,卷积块由串联的重复单元构成,每个卷积块包含的重复单元数量不同;
所述重复单元由残差块和片段级动态信息捕捉模块组成;所述残差块中包含两个卷积核为1×1的卷积层和一个卷积核3×3的卷积层;所述片段级动态信息捕捉模块包含两个1×1×1的卷积层、一个沙漏卷积、一个全局平均池化层以及一个Sigmoid激活函数层;
将Mfm输入到片段级动态信息捕捉网络的第一个卷积块中第一个重复单元的第一个1×1的卷积层后,得到特征Y,将Y输入到片段级动态信息捕捉模块中,并依次经过第一个1×1×1的卷积层,一个沙漏卷积层,一个全局平均池化层,第二个1×1×1的卷积层以及Sigmoid激活函数层的处理后,获得特征A,将A与Y相乘后再输入第一个卷积块中第一个重复单元的残差块,并依次经过3×3的卷积层和第二个1×1的卷积层的处理后,得到第一个卷积块的第一个重复单元的输出Z’;
Z’再输入第一个卷积块中第二个重复单元中,并经过同样的处理后得到的结果再输入下一个重复单元,从而经过第一个卷积块中所有重复单元的处理后的结果,输入到下一个卷积块中进行处理,最终由第四个卷积块的最后一个复单元得到层次化沙漏卷积网络的输出Z;
步骤3、所述分类网络由全局平均池化层和全连接层串联而成;并将Z输入所述分类网络中进行处理后,得到最终动作类别;
步骤4、构建交叉熵损失函数作为所述层次化沙漏卷积网络的损失函数L,并利用SGD优化器对所述层次化沙漏卷积网络进行训练,同时计算所述损失函数L,以调整网络参数,最终获得训练好的层次化沙漏卷积网络作为视频动作分类器,用于实现视频动作分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211053069.1/1.html,转载请声明来源钻瓜专利网。