[发明专利]一种人体动作识别方法在审
| 申请号: | 202211677196.9 | 申请日: | 2022-12-26 |
| 公开(公告)号: | CN116110124A | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 王晓东;马远骋;高海玲;章联军 | 申请(专利权)人: | 宁波大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/774;G06V10/778;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 宁波诚源专利事务所有限公司 33102 | 代理人: | 邓青玲;方宁 |
| 地址: | 315211 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人体 动作 识别 方法 | ||
1.一种人体动作识别方法,其特征在于包括如下步骤:
步骤1、获取包含人体动作的多个视频,并对每个视频进行稀疏采样,得到多个稀疏采样后的视频帧序列;
步骤2、将多个视频帧序列组成数据集,并将数据集构建成训练集和测试集;其中训练集中的每个训练样本分别包括一个视频帧序列和该视频帧序列对应的人体动作标签;
步骤3、构建动作识别模型,并使用训练集对构建的动作识别模型进行训练,得到训练完成后的动作识别模型;
动作识别模型具体结构为:
GRU时序处理模块,包括3D卷积神经网络和与3D卷积神经网络相连接的k个双向单层GRU单元,3D卷积神经网络的输入端作为GRU时序处理模块的输入端,k个双向单层GRU单元的输出端作为GRU时序处理模块的输出端;
第1个空间注意力模块,其输入端与GRU时序处理模块的输出端相连接;
第1个残差模块,其输入端与第1个空间注意力模块的输出端相连接;
第2个空间注意力模块,其输入端与第1个残差模块的输出端相连接;
第2个残差模块,其输入端与第2个空间注意力模块的输出端相连接;
…
第N个空间注意力模块,其输入端与第N-1个残差模块的输出端相连接;N为正整数;
第N个残差模块,其输入端与第N个空间注意力模块的输出端相连接;
多级特征融合模块,包括N-1个特征融合模块,分别为第1特征融合模块、第2特征融合模块…第N-1特征融合模块,第N个残差模块的输出端与第1特征融合模块的输入端相连接,第N-1个残差模块的输出端和第1特征融合模块的输出端相连接后一起与第2特征融合模块的输入端相连接;第N-2个残差模块的输出端和第2特征融合模块的输出端相连接后一起与第3特征融合模块的输入端相连接…第1个残差模块的输出端和第N-1特征融合模块的输出端相连接后一起作为多级特征融合模块的输出端;
分段通道注意力模块,其输入端与多级特征融合模块相连接;
特征提取层,包括与分段通道注意力模块的输出端相连接的池化层和与池化层相连接的全连接层,所述全连接层则为所述动作识别模型的输出端;
上述的每个残差模块分别包括多个相同的残差块,每个残差块分别包括依次相连接的多个卷积层;每个特征融合模块均包括上采样操作和卷积操作,以用于使其输出端的维度能与其对应残差模块输出的特征维度相同,进而能进行融合;
分段通道注意力模块的具体处理步骤为:
将输入到分段通道注意力模块的特征图所对应的通道c分成M段,得到M段通道数均为c/M的第一特征图;对M段第一特征图分别进行通道注意力增强操作,得到M段第二特征图;沿着通道维度将M段第二特征图连接输出,得到分段通道注意力模块的输出特征图;
步骤4、任意选择测试集中的其中一个样本,将其输入到步骤3训练完成后的动作识别模型中,即得到人体动作识别结果。
2.根据权利要求1所述的人体动作识别方法,其特征在于:所述步骤3中3D卷积神经网络包括一层卷积层,输入通道为3,输出通道是64,卷积核大小7*7*7、步长为(1,2,2),填充为(3,3,3)。
3.根据权利要求2所述的人体动作识别方法,其特征在于:所述3中在3D卷积神经网络和k个双向单层GRU单元之间还包括:连接于3D卷积神经网络中卷积层后的归一化层和激活函数层。
4.根据权利要求1~3任一项所述的人体动作识别方法,其特征在于:所述步骤3中每个空间注意力模块的具体处理过程为:
步骤3-1、对GRU时序处理模块输出的图像进行维度变换,得到第一图像X,X的维度为(c,t,h,w),其中c,t,h,w分别表示通道维度、帧数、每帧视频的高和宽;
步骤3-2、对第一图像X的时间维度进行压缩,获得第二图像X',X'的维度变换为(c,h,w);
步骤3-3、将第二图像X'分别经过两层卷积层conv1和conv2后,接着经过激活函数sigmoid运算为每一个位置生成对应的权重掩码并加权输出,最后与第一图像X相加而得到最终的输出F,F的维度大小与X相同。
5.根据权利要求4所述的人体动作识别方法,其特征在于:所述步骤3中通道注意力增强操作的具体处理过程为:
步骤3-a、将M段第一特征图中除通道之外的时空特征进行池化操作,使其时空维度压缩为1,得到第一子图;
步骤3-b、对第一子图的通道维度进行一维卷积操作,得到第二子图;
步骤3-c、经过激活函数sigmoid运算为第二子图中每一个通道位置生成对应的权重掩码并加权输出,最后将加权输出和第一特征图相加,得到第二特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211677196.9/1.html,转载请声明来源钻瓜专利网。





