[发明专利]基于混合神经网络的手势动作识别互动系统及方法有效
申请号: | 202110361015.0 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113052112B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王立军;于霄洋;李争平 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06V10/778;G06V10/764;G06N3/045;G06N3/08;G06N3/0464;G06N3/044 |
代理公司: | 盐城亭远专利代理事务所(普通合伙) 32486 | 代理人: | 郭超 |
地址: | 100000 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 神经网络 手势 动作 识别 互动 系统 方法 | ||
本发明公开了基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及系统,首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频,将这些视频进行进行格式的统一,后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征,后需要用RNN(递归神经网络)网络进行循环训练,最终输出识别结果。本发明能够得到手部信息的深度信息,能够提升识别的准确率,在自己搭建的数据集上达到了最先进的性能,结合3DCNN和RNN混合神经网络,融合效果较以往CNN+RNN的算法效果有较大提升。
技术领域
本发明属于图像识别技术领域,涉及基于混合神经网络的手势动作识别互动系统及方法。
背景技术
近年来,随着人工智能的崛起,机器学习、深度学习卷起了计算机的浪潮。人机交互已经成为如今机器视觉领域研究的重中之重。带有人机交互功能的智能设备在市场中飞速发展。手势作为人们日常生活中最常用的人体交互方式,已经被应用到了许多的智能设备上。
手势和手势是人类交流的一种常见形式。因此,人类使用这种交流方式与机器进行互动也是很自然的。例如,简单交互的人机交互可以提高汽车的舒适性和安全性;简单的手势交互可以更方便的进行智能家居的交互;高识别精度的手势识别可以让VR\AR手势识别运行的更加流畅。
手势识别又被分为静态手势识别和动态手势识别。静态手势识别训练的样本为静态的图片。动态的手势识别训练的样本为动态的手部动作,即在实时的视频中检测到手部进行的动作。手势识别是解释人手动作的意义。现如今手势识别系统中,许多研究人员已经提出了各种基于如深度相机、彩色相机、距离传感器、可穿戴惯性传感器或其他模态类型传感器数据进行手势识别技术。基于计算机视觉的手势识别中,有一部分是静态手势识别,这些方法只能还是别静态的手势,做手势识别时会显得不自然。在用于人机交互的真实系统中,动态手势的自动检测和分类具有挑战性,因为(1)人们在做手势、识别和分类方面存在很大的差异;(2)系统必须在线工作,以避免在执行手势和分类之间出现明显的延迟。
发明内容
为解决上述问题,本发明提供了一种基于3D CNN和RNN混合神经网络的投影手势动作识别互动方法及系统,首先通过深度相机获取手部的深度图像视频、彩色图像视频、和红外图像视频,将这些视频进行进行格式的统一,后将这些视频文件分组送入3DCNN(三维卷积神经网络)的网络进行视频的动作学习后输出图像特征,后需要用RNN(递归神经网络)网络进行循环训练,最终输出识别结果。
为了达到上述目的,本发明提供如下技术方案:
基于3D CNN和RNN混合神经网络的投影手势动作识别方法,包括如下步骤:
步骤一,图像视频数据集采集
采用深度相机采集手部数据,创建数据集;
在模型输入时将RGB三通道的模型输入,转换为了RGB+HSV六通道的模型输入,HSV分别代表色调、饱和度、明度,其表达式如下:
max=max(R/255,G/255,B/255) (1)
min=min(R/255,G/255,B/255) (2)
(3)
V=max (5)
其中R、G、B为每帧图像的红绿蓝分量数值;
步骤二,采用三维卷积神经网络对数据集中的视频数据进行视频学习,输出图像特征。
步骤三,采用递归神经网络对步骤二输出的图像特征进行循环训练。
进一步的,所述步骤一包括如下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110361015.0/2.html,转载请声明来源钻瓜专利网。