[发明专利]栈式降噪自编码神经网络手势图像的识别方法在审

申请号：	201611180941.3	申请日：	2016-12-20
公开（公告）号：	CN106803062A	公开（公告）日：	2017-06-06
发明（设计）人：	马苗;朱青青;郭敏;武杰	申请（专利权）人：	陕西师范大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/08
代理公司：	西安永生专利代理有限责任公司61201	代理人：	申忠才
地址：	710062 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种栈式降噪自编码神经网络手势图像的识别方法，由训练步骤和测试步骤组成。训练步骤由训练样本预处理、训练第一个降噪自动编码器、训练第二个降噪自动编码器、训练用于分类的栈式降噪自编码神经网络四部分组成。测试步骤由对测试样本图像进行预处理、对输入的测试样本图像进行识别组成。本发明针对复杂场景下受光照、种族、人体其他部位及相似颜色背景等因素干扰的手势图像，采用自动编码器无监督学习的特性，建立一个端到端的网络，从大量样本图像中自动提取手势的多层次特征，避免了复杂的预处理环节，取得了较高识别率，可用于游戏虚拟手柄、相机手势快门控制、汽车虚拟驾驶等。
搜索关键词：	栈式降噪编码神经网络手势图像识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种栈式降噪自编码神经网络手势图像的识别方法，其特征在于它是由训练步骤和测试步骤组成，所述的训练步骤为：(1)对训练样本图像进行预处理包括彩图灰度化、大小归一化步骤；彩图灰度化：用(1)式对被训练的样本图像进行灰度化处理，将彩色图像转为灰度图像：I＝Wr×R+Wg×G+Wb×B (1)式中I为灰度化后的亮度，R为彩色图像的红色分量，G为彩色图像的绿色分量，B为彩色图像的蓝色分量，Wr为彩色图像的红色分量的权重，Wg为彩色图像的绿色分量的权重，Wb为彩色图像的蓝色分量的权重；大小归一化：将上述灰度化后的图像用双三次插值法或B样条插值法或拉格朗日插值法，归一化为32×32的图像，像素总个数为322；(2)训练第一个降噪自动编码器第一个降噪自动编码器结构为：输入层神经元个数为32×32，隐含层神经元个数为500～700，输出层神经元个数为32×32，输入层的每一个神经元分别与隐含层的所有神经元相连接，隐含层的每一个神经元分别与输出层的所有神经元相连接，设定最大迭代次数，在预处理后的32×32训练样本图像中加入噪声，即个数为322×0.3像素的灰度值置为0，形成含噪声的样本图像作为输入层，输入层与隐含层之间共(1024+1)×(500～700)个训练参数，经过前向传播和反向传播，迭代训练至最大迭代次数，得到以列序为主序的500～700维的多尺度特征和输入层与隐含层之间1024×(500～700)维的连接权重；(3)训练第二个降噪自动编码器第二个降噪自动编码器结构为：输入层神经元个数为500～700，隐含层神经元个数为100～300，输出层神经元个数为500～700，输入层的每一个神经元分别与隐含层的所有神经元相连接，隐含层的每一个神经元分别与输出层的所有神经元相连接，设定最大迭代次数，在500～700维的多尺度特征中加入噪声，即个数为(500～700)×0.3像素的灰度值置为0，形成输入层，输入层与隐含层之间共((500～700)+1)×(100～300)个训练参数，经过前向传播和反向传播，迭代训练至最大迭代次数，得到以列序为主序的100～300维的多尺度特征和输入层与隐含层之间(500～700)×(100～300)维的连接权重；(4)训练用于分类的栈式降噪自编码神经网络用训练好的第一个降噪自动编码器中输入层与隐含层的权重初始化栈式降噪自编码神经网络中第一层每一个神经元分别与第二层中所有神经元的连接权重，用训练好的第二个降噪自动编码器的权重初始化栈式降噪自编码神经网络中第二层的每一个神经元分别与第三层中所有神经元的连接权重，将训练样本输入到栈式降噪自编码神经网络中，经前向传播提取训练样本的多尺度特征，把多尺度特征输入到Softmax分类器中，Softmax分类器按照式(2)进行计算，得到的结果与样本标签的误差值进行反向传播，调整网络的权重直至最大迭代次数，得到训练好的栈式降噪自编码神经网络；z1z2...zk=1Σj=1kewjTxew1Txew2Tx...ewkTx---(2)]]>式中，x为样本图像，k为总类别数，zk为样本x属于类别k的概率，w为第三层与Softmax分类器之间的连接权重矩阵；所述的测试步骤为：(1)对测试样本图像进行预处理测试样本图像进行预处理与训练样本图像进行预处理步骤(1)相同；(2)对输入的测试样本图像进行识别将预处理后的测试样本输入到栈式降噪自编码神经网络中，经前向传播提取训练样本的多尺度特征，把多尺度特征输入到Softmax分类器中，计算出该样本所属a、b、c、d、e、f、g、h、i、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y共24个英文字母的每个字母的概率，得到一个由概率值组成的24维向量，置概率值最大的位置值为1，其余位置值为0，1所在的位置为所属的类别,[1 0 0…0]中1所在的位置为第1位，表示该样本属于第1类，表示手势字母a；[0 1 0…0]中1所在的位置为第2位，表示该样本属于第2类，表示手势字母b；…；[0 0 0 0 0 0 0 0 1 0…]中1所在的位置为第9位，表示该样本属于第9类，表示手势字母i；[0 0 0 0 0 0 0 0 0 1 0…]中1所在的位置为第10位，表示该样本属于第10类，表示手势字母k；…；[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]中1所在的位置为第24位，表示该样本属于第24类，表示手势字母y。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于陕西师范大学，未经陕西师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611180941.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于动态感兴趣区域的简易快速车道线检测方法
下一篇：一种行人重识别的度量学习方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]栈式降噪自编码神经网络手势图像的识别方法在审

专利文献下载