[发明专利]一种基于3D卷积神经网络的动态手势识别方法在审
申请号: | 202111467938.0 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114155604A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 刘杰;王月;王鹏 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 动态 手势 识别 方法 | ||
1.一种基于3D卷积神经网络的动态手势识别方法,其特征在于:所述方法通过以下步骤实现:
(1)对公开的动态手势数据集进行预处理:
(1-1)帧截取:对公开动态手势数据集的每一个动作视频以原始的帧速率进行帧采样,确保一个动作视频提取出的动作图像不少于16帧;
(1-2)数据标定:动态手势数据集的动作一共为N类,标签分别标记为1到N,动态手势视频一共有M个;其中M1个视频进行帧提取后的动作图像作为训练数据,剩余的M2个视频进行帧提取后的动作图像作为测试数据;
(1-3)图像裁剪与数据增强:将尺寸不一的动作图像统一裁剪成尺寸为112X112的图像,然后进行随机水平或垂直翻转,将动作图像的RGB数据进行平均归一化;
(2)将R(2+1)D-18网络增加跳残差结构:
增加跳残差结构:R(2+1)D-18网络结构包括一个时空卷积层,四个残差层,一个平均池化层以及一个全连接层,其中,每个残差层包含两个残差块,每个残差块包含两个时空卷积层;将以上结构中的第一个时空卷积层和第三个残差层之间增加一个跳残差结构;
(3)将R(2+1)D-18网络提取的浅层特征与深层特征相融合:
(3-1)提取第一个残差层的特征:在R(2+1)D-18网络中的第一个残差层后新增一个分支,连接一个时空卷积层,一个批归一化层,一个平均池化层,一个全连接层,提取浅层特征;
(3-2)提取第二个残差层的特征:在R(2+1)D-18网络中的第二个残差层后新增一个分支,连接一个时空卷积层,一个批归一化层,一个平均池化层,一个全连接层,提取浅层特征;
(3-3)将浅层特征与深层特征融合:将上述第一个残差层后新增分支中的全连接层的输出特征与第二个残差层后新增分支中的全连接层的输出特征与原R(2+1)D-18网络中的全连接层的输出特征进行加权融合;
(4)对改造后的R(2+1)D-18网络进行训练和测试:
对动态手势数据集进行训练,剖析整个网络训练的损失函数,若不收敛则不断迭代更新网络参数调整网络结构,重新对网络进行训练,若整个网络趋于收敛则得到改造的R(2+1)D-18动态手势识别网络模型,对动态手势识别网络模型进行测试,得到分类的准确率,通过比较和评价得到动态手势的分类结果,实现对动态手势的分类,最后进行分析和总结。
2.根据权利要求1所述一种基于3D卷积神经网络的动态手势识别方法,其特征在于:将R(2+1)D-18网络增加跳残差结构,将R(2+1)D-18网络提取的浅层特征与深层特征相融合,将动态手势数据集中的图像输入到网络模型中,一个训练批次送入16帧手势动作图像,改造的R(2+1)D-18网络将浅层特征与深层特征融合,最后经过softmax分类器处理后,得到动态手势的相对概率,预测动态手势。
3.根据权利要求1所述一种基于3D卷积神经网络的动态手势识别方法,其特征在于:所述网络结构为:在原R(2+1)D-18网络中增加跳残差结构,Input(3,16,112,112)层连接SpatioTemporalConv(64,16,56,56)层,SpatioTemporalConv(64,16,56,56)层连接ResLayer1(64,16,56,56)层,ResLayer1(64,16,56,56)层连接ResLayer2(128,8,28,28)层,ResLayer2(128,8,28,28)层连接ResLayer3(256,4,14,14)层,ResLayer3(256,4,14,14)层连接ResLayer4(512,2,7,7)层,ResLayer4(512,2,7,7)层连接AdaptiveAvgPool3d(512,1,1,1)层,AdaptiveAvgPool3d(512,1,1,1)层连接Linear(512,num_classes)层,num_classes为手势动作的种类数;其中在SpatioTemporalConv(64,16,56,56)层之后添加一个跳残差结构,跳残差结构包括:SpatioTemporalConv(512,2,7,7)和BatchNorm3d(512,2,7,7)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111467938.0/1.html,转载请声明来源钻瓜专利网。