[发明专利]一种基于3d卷积神经网络的手势识别方法有效
申请号: | 201810020731.0 | 申请日: | 2018-01-09 |
公开(公告)号: | CN108197580B | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 许骞艺;秦贵和;姜慧明;张钟翰;晏婕;刘毅;袁帅;秦俊 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 魏征骥 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于3d卷积神经网络的手势识别方法,属于手势识别方法。针对深度相机拍摄获取的普通视频和深度视频,进行一系列预处理,在应用预处理的普通处理方法的基础上,针对视频图像存在噪点的问题,采用卷积神经子网与反卷积神经子网相结合的去噪方法,针对视频中存在的时间空间关系,采用3d卷积神经网络进行处理。本发明大幅度提高了手势分类的速率,增强了识别依据的可靠性和结果的合理性。 | ||
搜索关键词: | 卷积神经网络 手势识别 预处理 子网 视频 神经 深度视频 深度相机 时间空间 视频图像 手势分类 反卷积 卷积 去噪 噪点 合理性 拍摄 应用 | ||
【主权项】:
1.一种基于3d卷积神经网络的手势识别方法,其特征在于,包括下列步骤:(一)在不同光照下采集四类手势视频数据用相机拍摄像素为171×224的灰度与深度视频图像,数据在不同光照下采集,都采集驾驶员右手的手势,其中:第一类手势是左右滑动手势,第二类手势是上下翻动手势,第三类手势是左右点滑手势,第四类手势是旋转手势;(二)手势视频数据预处理1)原始手势视频时间长度各不相同,为了统一每个手势视频的时间长度,对视频正则化,使用最近邻插值通过丢弃或重复帧完成重采样的过程,结果为每个手势序列时间长度都是32帧;2)在空间上,原始视频图像大小为171×224,只取有手势的那一部分、图像的大小为100×100,同时,为了使网络训练时速度更快,使用以2为因子下采样原始彩色的强度图像和深度图像到50×50像素;3)使用大小为3×3像素Sobel算子在强度通道和深度通道中计算梯度,提高数据集中不同光照条件下的表现的鲁棒性;4)归一化每一个手势视频的每个通道,使每个通道的值成为零均值和单位方差的;经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
其中x为随机变量,x*为标准化的随机变量,μ为所有样本数据的均值,6为所有样本数据的标准差;5)经过以上处理后的图像存在很多噪点,为了最大程度的去除噪点,采用卷积子网与反卷积子网相结合的去噪方法,该方法保证输入图像的大小与输出图像的大小相同,去噪效果良好;6)最终输入到3d卷积神经网络的特征分类器的是大小为50×50×32的包含交错的图像强度和深度帧的手势视频数据;(三)手势识别的网络架构经过手势视频数据预处理后,将视频段作为输入放进3d卷积神经网络架构中,通过一系列的卷积和池化操作完成对视频中的手势特征的分类,通过分类结果判断输入的某一视频属于哪种手势,从而达到手势识别的要求;具体的操作步骤如下:第1层为卷积层,记作C1层,使用4个大小为5×5×3的卷积核,以步长为1做卷积层;C1层的输入数据为大小50×50×32的视频,输出数据为4个大小为46×46×30的特征图;第2层为池化层,记作S2层,对C1层的输出做最大池化操作,池化窗口大小为2×2×2,步长为1;S2层的输入数据为大小46×46×30的特征图,输出数据为4个大小为23×23×15的特征图;第3层为卷积层,记作C3层,使用8个大小为3×3×5的卷积核,以步长为1做卷积层;C3输入的数据为大小23×23×15的特征图,输出数据为8个大小为21×21×11的特征图;第4层为池化层,记作S4层,对C3层的输出做最大池化操作,池化窗口大小为2×2×2,步长为1;S4层的输入数据为大小21×21×11的特征图,输出数据为8个大小为10×10×5的特征图;第5层为池化层,记作S5层,对S4层的输出做最大池化操作,池化窗口大小为2×2×1,步长为1;S5层的输入数据为大小10×10×5的特征图,输出数据为8个大小为5×5×5的特征图;第6层为全连接层,记作FC6层,一个尺寸为800个神经元的特征,每个特征与第5层的所有特征进行全连接;第7层为softmax层,softmax层的输入为第6层的神经元,通过softmax函数计算,得出的结果为一系列的概率值,这些概率求和为1,每个概率代表给定视频属于特定输出类的概率,如果某一视频得出的概率值中,第一类概率值最高,则这一手势视频对应为左右滑动;如果第二类概率值最高,则这一手势视频对应为上下翻动;如果第三类概率值最高,则这一手势视频对应为左右点滑;如果第四类概率值最高,则这一手势视频对应为旋转。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810020731.0/,转载请声明来源钻瓜专利网。