[发明专利]一种基于轻量3D残差网络和TCN的多模态动态手势识别方法有效
| 申请号: | 202011467797.8 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112507898B | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 唐贤伦;闫振甫;李洁;彭德光;彭江平;郝博慧;朱楚洪;李鹏华 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V40/20;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 网络 tcn 多模态 动态 手势 识别 方法 | ||
本发明请求保护一种基于轻量3D残差网络和TCN的多模态动态手势识别方法。首先,对数据集中的原始视频进行采样,按照时间顺序排序保存;然后,使用大型的公开手势识别数据集对轻量3D残差网络进行预训练,并保存模型的权重文件;接着,使用RGB‑D图像序列作为输入,轻量3D残差网络和时间卷积网络作为基础模型进行长短期的时空特征的提取,并使用注意力机制加权融合多模态的信息。其中RGB和深度(Depth)序列分别输入相同的网络结构;最后,使用全连接层进行分类,采用交叉熵损失函数计算损失值,并使用准确率和F1Score作为网络模型的评估指标。本发明既可以达到较高的分类准确率,又具有参数量低的优点。
技术领域
本发明属于视频时空特征提取与分类方法技术领域,特别是动态手势时空特征提取的轻量级异构结构,既能减少模型参数量,又可以保证模型性能的方法。
背景技术
手势是人类交流的一种常见形式。手势识别可以以一种自然的方式实现人机交互。手势识别旨在通过从图像或视频中提取特征来理解人的动作,然后将每个样本分类或识别为特定标签。传统的手势识别主要基于手工提取特征,虽然这种方式可以达到不错的识别效果,但是这种方式依赖于研究者的经验来设计特征,而且手工提取的特征对动态手势适应性差。
随着深度学习的发展,端到端的手势识别逐渐成为了可能。越来越多的研究者尝试基于深度学习模型进行手势识别。双流网络是动态手势识别研究中开创性的尝试。双流网络模型的首次提出是为了解决传统的卷积神经网络(CNNs)无法很好地处理动作识别中的时序信息的问题,其主要的思想是使用两个独立的CNNs分别从图片和光流数据中提取空间特征和时序信息。然而,光流基于连续的视频输入,这需要大量的计算。从而会大大降低了双流网络模型的整体速度。3DCNNs可以直接学习时空特征,其在各种计算机视觉相关分析任务中取得了突破性的进展。3DCNNs主要是在2D卷积核的基础上引入时间维度,从而可以同时提取空间特征和时间特征。基于3DCNNs,研究者们提出了许多性能突出的深度网络模型,如,3D-ResNet、I3D和S3D等。然而,3D卷积相比2D卷积具有非常大的参数量,在模型训练的时候往往需要耗费较长的时间。而且,每个3D卷积通常仅处理较小的时间窗口,而不是整个视频。因此,3DCNNs不能有效编码动态手势视频中的长时空信息,这阻碍了其在视频任务中的发展。
循环神经网络(Recurrent Neural Network,RNN)和其变体Long Short-TermMemory(LSTM)是一种以序列数据为输入来进行建模的深度学习模型,他们常用来编码动态手势的长期时空特征。LSTM通过学习如何使用存储单元存储,修改和访问内部状态,随着时间的推移来集成信息,这使它可以更好地发现视频的长期和短期的时态关系。然而,由于存储单元在输入到状态和状态到状态的转换中利用完全连接,所以不对空间相关信息进行编码。与传统的LSTM不同,Convolutional Long Short-Term Memory(ConvLSTM)明确假定输入是图像序列,并通过卷积运算替换了LSTM门中的矢量乘法,其中图像的中间表示在递归过程中保留了空间相关信息。在动态手势识别任务中,3DCNNs级联ConvLSTM是目前使用最多的方法。然而,在模型训练的时候,这种方法需要较多的内存和较高的计算量。
因此,需要一种可以在保证模型性能前提下的轻量级深度网络模型。分离卷积可以大大减少3D卷积的参数量,同时也可以保持模型的性能表现。时间卷积网络(TCN)是一种新型的可以用来解决时间序列预测的算法,并且具有相对较少的计算复杂度。轻量3D残差网络和TCN的结合有望解决目前存在的方法普遍复杂度较高的问题。同时采用多模态特征的加权融合可以提高分类的准确率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在模型性能和模型参数量平衡前提下的基于轻量3D残差网络和TCN的多模态动态手势识别方法。本发明的技术方案如下:
一种基于轻量3D残差网络和TCN的多模态动态手势识别方法,其包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011467797.8/2.html,转载请声明来源钻瓜专利网。





