[发明专利]一种基于高效卷积神经网络的多模态融合手势识别方法有效
| 申请号: | 201910142252.0 | 申请日: | 2019-02-26 |
| 公开(公告)号: | CN109919057B | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 陈靖;王靖尧;樊蕾;乔媛媛;任杰 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06F3/01 |
| 代理公司: | 北京理工大学专利中心 11120 | 代理人: | 李微微;仇蕾安 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 高效 卷积 神经网络 多模态 融合 手势 识别 方法 | ||
1.一种基于高效卷积神经网络的多模态融合手势识别方法,其特征在于,包括如下步骤:
步骤1、视频序列预处理:将数据集中的一段手势视频序列V平均分割为多段片段,再从每段片段中随机选择一帧彩色图像形成新的彩色图像序列F;然后将视频序列V逐帧做帧差生成帧差序列M;
步骤2、数据层融合:针对彩色图像序列F中的各帧彩色图像,在帧差序列M找到相同索引值的帧差图像,将该帧差图像、该帧差图像的前m-1帧的帧差图像以及该彩色图像,按索引值次序组成一帧具有(3+m)通道数的多通道融合图像;m取值范围为1至4;遍历彩色图像序列F中的每一帧彩色图像后,最终形成一段具有N张多通道融合图像的序列{F1,F2,...,FN};N表示手势视频序列V被分成的段数;
步骤3、将步骤2获得的多段具有N张多通道融合图像的序列以及各自的分类结果输入到高效卷积神经网络中,对网络进行训练,得到训练好的高效卷积神经网络;
步骤4、手势识别:针对输入的未知类别的手势视频,按照步骤1和步骤2的方法,获得该段视频对应的具有N张多通道融合图像的序列,将其输入到步骤3训练好的高效卷积神经网络中,对手势进行分类。
2.如权利要求1所述的一种基于高效卷积神经网络的多模态融合手势识别方法,其特征在于,对所述步骤2获得的多通道融合图像的序列进行数据增强,以扩充数据量。
3.如权利要求2所述的一种基于高效卷积神经网络的多模态融合手势识别方法,其特征在于,所述数据增强的方法包括:(a)随机对图像尺寸做一定范围的调整;(b)随机对图像做一定角度的旋转操作;(c)随机选取图像的一部分,再放大到要求的尺寸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910142252.0/1.html,转载请声明来源钻瓜专利网。





