[发明专利]一种神经网络训练方法及三维手势姿态估计方法在审
申请号: | 201710954487.0 | 申请日: | 2017-10-13 |
公开(公告)号: | CN107622257A | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 王好谦;李达;方璐;王兴政;张永兵;戴琼海 | 申请(专利权)人: | 深圳市未来媒体技术研究院;清华大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司44223 | 代理人: | 方艳平 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 训练 方法 三维 手势 姿态 估计 | ||
技术领域
本发明涉及计算机视觉、深度学习领域,尤其涉及一种神经网络训练方法及三维手势姿态估计方法。
背景技术
近几年,随着计算机视觉、深度学习的飞速发展,虚拟现实、增强现实技术逐渐普及,并且仍具有不可估量发展前景。作为人机交互的一种重要手段,手势识别技术一直受到计算机视觉领域的高度关注,由于人手关节较多、形状交复杂、自由度较高且容易出现遮挡现象,迅速且精确的识别出手势位置及手的动作一直是一个难题。
传统的手势姿态估计方法通常可以分成两种:基于传感器和基于图像。基于传感器的手势姿态估计技术,是指通过在人手掌及手指特定的部位固定加速度计、角速度计等传感器;通过穿戴的传感器设备获取人手特定部位的位置与运动状态信息,进而通过运用运动学的方法解算出人手手掌及手指的状态,从而达到手势姿态估计的效果;这种方法由于要穿戴传感器设备,对手势检测局限性很大,而且受传感器本身精度与穿戴位置变化等因素的影响,通常检测误差会较大。另一种基于图像的手势姿态估计方法,通常是通过对RGB相机拍摄到的包含人手的图像使用边缘检测、肤色检测等基于边缘或者区域检测的方法,首先确定人手在图像中的大致区域,进而通过图像分割等手段分割出手指、手腕等细节信息;由于普通相机拍摄到包含手的图片,通常只能反映场景的平面信息,如果手指间出现遮挡,便无法识别出遮挡手指的动作细节,因此也存在较大误差。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为了解决上述技术问题,本发明提出一种神经网络训练方法及三维手势姿态估计方法,能够精确地识别出手势中手掌手指的具体位置与姿态。
为了达到上述目的,本发明采用以下技术方案:
本发明公开了一种神经网络训练方法,包括以下步骤:
S1:通过深度相机采集包含多个手势深度图的数据集;
S2:采用步骤S1的数据集来训练随机森林学习器;
S3:采用随机森林学习器对步骤S1的数据集中的多个手势深度图进行分割,分割出手势子图,再对所述手势子图进行处理得到处理图,将所述处理图和步骤S1的数据集中的多个手势深度图进行乱序划分成训练集和测试集;
S4:将步骤S3得到的训练集和测试集用于训练卷积神经网络,训练得到网络模型。
优选地,步骤S3中对所述手势子图进行处理得到处理图包括:S32:将所述手势子图在X、Y、Z三轴方向上分别进行投影,得到三张单通道的投影图;其中所述处理图包括步骤S32中的所述投影图。
优选地,步骤S3中对所述手势子图进行处理得到处理图还包括:S33:分别对三张投影图进行降采样,得到多种不同尺寸的降采样图;其中所述处理图包括步骤S32中的所述投影图和步骤S33中的所述降采样图。
优选地,步骤S1具体包括:
S11:采用多台深度相机,采集不同人的多个手势深度图;
S12:对每个手势深度图进行标注,并将多个手势深度图和对应的标注信息存储在数据集中。
优选地,步骤S12中对每个手势深度图进行标注具体包括:对每个手势深度图中的手指和手掌的预定位置标注坐标信息(x,y,d),其中x、y为手势深度图上的横纵坐标,d为像素深度。
优选地,手指的预定位置包括手指的所有关节点。
优选地,步骤S4具体包括:
S41:从所述训练集中随机选取m张图片和其对应的标签信息,从所述测试集中随机选取n张图片和其对应的标签信息;
S42:图片在网络中经过卷积层;
S43:图片在网络中经过池化层;
S44:输出层对图片进行复原;
S45:计算网络输出与标签信息之间的误差,学习网络,更新网络参数;
S46:反复迭代步骤S42~S45,不断更新参数,直至参数收敛;将训练好的参数保存,最终得到训练好的网络模型。
优选地,步骤S45具体为:计算网络输出与标签信息之间的误差的公式如下:
其中,为预测的标签坐标,由组成,J为原始标签,由(j1,j2,...,jn)组成,n为标签的数量,
假设网络中神经元的网络参数为ω,则根据下式更新网络参数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市未来媒体技术研究院;清华大学深圳研究生院,未经深圳市未来媒体技术研究院;清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710954487.0/2.html,转载请声明来源钻瓜专利网。