[发明专利]基于混合神经网络的手势动作识别互动系统及方法有效
申请号: | 202110361015.0 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113052112B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王立军;于霄洋;李争平 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06V10/778;G06V10/764;G06N3/045;G06N3/08;G06N3/0464;G06N3/044 |
代理公司: | 盐城亭远专利代理事务所(普通合伙) 32486 | 代理人: | 郭超 |
地址: | 100000 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 神经网络 手势 动作 识别 互动 系统 方法 | ||
1.基于3D CNN和RNN混合神经网络的投影手势动作识别方法,其特征在于,包括如下步骤:
步骤一,图像视频数据集采集
采用深度相机采集手部数据,创建数据集;
在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,HSV分别代表色调、饱和度、明度,其表达式如下:
max = max(R/255,G/255,B/255) (1)
min = min(R/255,G/255,B/255) (2)
(3)
(4)
V = max (5)
其中R、G、B为每帧图像的红绿蓝分量数值;
步骤二,采用三维卷积神经网络对手势动作数据集中的视频数据进行视频学习,输出图像特征;
其中,三维卷积神经网络进行如下操作:
三维卷积神经网络对视频进行帧抽样,每秒抽取7帧图像作为网络输入;其中每帧提取5个通道信息,gray、gradient-x、gradient-y这三个通道的信息直接对每帧分别操作获取,optflow-x、optflow-y两个通道的信息则需要利用两帧的信息提取;
以上一层的输出作为输入,对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作,这一层采用了两种不同的3D卷积核;
进行max pooling操作,降采样之后的特征maps数量保持不变;
对之前分的两组特征maps分别采用7*6*3的卷积核进行操作,同样为了增加特征maps的数量,3D CNN采用了三种不同的卷积核分别对两组特征map进行卷积操作;
进行采样工作,对每个特征maps采用3*3的核进行降采样操作,对每个特征maps采用7*4的2D卷积核进行卷积操作;
步骤三,采用递归神经网络对步骤二输出的图像特征进行循环训练,最终输出手势动作识别结果。
2.根据权利要求1所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法,其特征在于,所述步骤一包括如下子步骤:
1)使用深度相机在每一个手势场景都拍摄深度视频、彩色视频、红外视频各10段,数据集预设10个手势操作,分别为:手势A、手势B、手势C、手势D、手势E、手势F、手势G、手势H、手势I、手势J;
2)调节这些视频大小使其保持统一大小;
3)将上一步中得到的视频放入不同的文件夹中,生成手势标签文件;
4)将这些文件夹进行整合,完成数据集的创建。
3.基于3D CNN和RNN混合神经网络的投影手势动作识别系统,其特征在于,用于实现权利要求1-2任意一项所述的基于3D CNN和RNN混合神经网络的投影手势动作识别方法,包括图像视频数据集采集模块、三维卷积神经网络、递归神经网络;其中,图像视频数据集采集模块用于采用深度相机采集手部数据;三维卷积神经网络用于对数据集中的视频数据进行视频学习输出图像特征;递归神经网络用于对三维卷积神经网络输出的图像特征进行循环训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110361015.0/1.html,转载请声明来源钻瓜专利网。