[发明专利]一种手势识别方法和装置有效

申请号：	201810961625.2	申请日：	2018-08-22
公开（公告）号：	CN109117806B	公开（公告）日：	2020-11-27
发明（设计）人：	冯扬扬	申请（专利权）人：	歌尔科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	北京市隆安律师事务所 11323	代理人：	权鲜枝;吴昊
地址：	266104 山东省青岛***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种手势识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种手势方法和装置。手势识别方法包括：获取具有相同预设手势类型、不同手势角度的多张手势图像，并将多张手势图像合并为多通道图像；将多通道图像输入预设的卷积神经网络，确定具有预设非线性特征的特征图，预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征；在特征图上生成预选框，利用预选框预测手势目标在图像中的位置，并根据预设非线性特征获得手势识别结果。本发明可以避免外界环境变化或手势姿态变化对手势识别造成影响，不管手势姿态如何变化，手势如何遮挡或者光照情况如何变化，本发明都可以准确识别手势，提高识别的准确性。

技术领域

本发明涉及一种手势识别方法和装置。

背景技术

近年来，深度学习在解决诸如视觉识别、语音识别和自然语言处理等很多问题方面都表现出非常好的性能，在不同类型的深度神经网络当中，卷积神经网络在图像处理方面取得了较好的效果。

但随着移动终端和可穿戴设备的普及,在复杂背景下手势识别的效果受环境影响较大，例如，受光照、颜色、遮挡、形变等影响较大，且现实生活中，图像采集具有一定的局限性，不可能包含所有情况下的手势图片，因此基于以单张图像为输入的卷积神经网络在手势识别的应用具有一定的局限性。

发明内容

本发明提供了一种手势方法和装置，以解决现有手势识别方案受环境影响大，识别结果不准确的问题。

本发明的一个方面提供了一种手势识别方法，包括：获取具有相同预设手势类型、不同手势角度的多张手势图像，并将多张手势图像合并为多通道图像；将多通道图像输入预设的卷积神经网络，确定具有预设非线性特征的特征图，预设非线性特征包括图像2D空间相关性特征和图像不同通道间手势对象的各种表征信息的相关性特征；在特征图上生成预选框，利用预选框预测手势目标在图像中的位置，并根据预设非线性特征获得手势识别结果。

优选地，获取具有相同手势类型、不同手势姿态的多张手势图像，包括：获取目标手势的灰度图像；根据预设手势角度的种类，将灰度图像旋转预设角度，获得多张手势图像；采用预设方法将所述灰度图像的局部进行模糊处理，获得手势遮挡图像；将多张手势图像和所述手势遮挡图像，缩放至相同尺寸后合并成一个多通道图像。

优选地，卷积神经网络包括多级卷积层，每级卷积层为深度可分离结构，所述深度可分离结构对多个通道的输入图像采用k*k*1的卷积核滑动相乘，确定表示多通道图像2D空间相关性的多个特征图，并对多个特征图采用1*1*Cout的卷积核滑动相乘，确定多通道图像不同通道间手势对象的各种表征信息的相关性；其中，k为卷积核的大小，Cout为输出通道数。

优选地，在特征图上生成预选框，利用预选框预测手势目标在图像中的位置，并根据预设非线性特征获得手势识别结果包括：根据卷积层的层级，在相应卷积层的特征图上的每个像素点生成相应数量和形状的多个预选框；根据预选框中的图像内容与在手势图像上利用标定框预先标定的图像内容的交集与并集的比值，确定满足预设条件的预选框，根据预选框中特征图的预设非线性特征确定预选框的位置，以利用预选框预测手势目标在图像中的位置。

优选地，根据卷积层的层级，在相应卷积层的特征图上生成相应数量和形状的多个预选框，包括：根据手势目标在参与预测的各个卷积层的特征图中的占比，确定占比的最大值和最小值；根据占比的最大值、最小值和卷积层的层级，确定参与预测的卷积层的占比间隔；根据占比间隔、手势目标在卷积层的特征图中的占比值和最小维度值，确定卷积层的特征图上生成的预选框的最大尺寸和最小尺寸，最小维度根据卷积层的输入图像的尺寸确定。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于歌尔科技有限公司，未经歌尔科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810961625.2/2.html，转载请声明来源钻瓜专利网。

上一篇：舞台灯光阵列防火控制系统
下一篇：面部识别方法、装置、电子设备及计算机可读介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种手势识别方法和装置有效

专利文献下载