[发明专利]基于肤色检测和深度学习的视频手势的识别方法及装置有效
申请号: | 201811534444.8 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109684959B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 种衍文;黄瀚文;潘少明;李红 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T7/11;G06T7/13;G06T7/62;G06T7/66;G06T7/90;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 肤色 检测 深度 学习 视频 手势 识别 方法 装置 | ||
1.基于肤色检测和深度学习的视频手势的识别方法,其特征在于,包括:
步骤S1:获取视频数据,所述视频数据由RGB图像构成;
步骤S2:基于预设皮肤色彩特征分割模型,对视频数据进行逐帧处理,分割出皮肤区域,并对皮肤区域对应的图像进行二值化,获得二值化图像;
步骤S3:从二值化图像中提取出手部轮廓;
步骤S4:基于预设手势识别模型对提取出的手部轮廓进行识别,其中,预设手势识别模型由已有的训练数据,采用金字塔池化模块搭配注意力机制训练得到,其中,已有的训练数据包含所需要判别的所有手势类型,金字塔池化模块搭配注意力机制通过增加感受野对手势类型进行细节分类;
其中,步骤S3具体包括:
步骤S3.1:从二值化图像中检索出所有轮廓;
步骤S3.2:从所有轮廓中选取出面积最大的两个轮廓;
步骤S3.3:从面积最大的两个轮廓中提取出手部轮廓;
预设手势识别模型包括卷积层、最大池化层、瓶颈块、全连接层和分类层,步骤S4具体包括:
步骤S4.1:通过卷积层和最大池化层,将提取出的手部轮廓对应的原始图像转化为第一特征图,其中,第一特征图的图像大小为原始图像的大小的1/2;
步骤S4.2:通过对应的瓶颈块分别对第一特征图进行处理,得到大小分别为原始图像大小的1/4,1/8,1/16,1/32的四个不同尺度的特征图;
步骤S4.3:采用注意力机制逐层将上一尺度大小的特征图通过池化层进行下采样,再经过一层激活函数为sigmoid的卷积层,将其作为下一尺度特征图的权重;
步骤S4.4:将4×4的特征图展开为一维向量,并通过包全连接层和分类层,得到手势识别结果;
具体地,一张128×128的原始图像经过一个7×7的卷积层和最大池化层得到64×64的第一特征图;然后经过Bottleneck block之后得到分别32×32、16×16、8×8和4×4四个不同尺度的特征图;进而采用注意力机制逐层将上一尺度大小的特征图通过池化层下采样,并经过一层激活函数为sigmoid的卷积层,进而将其作为下一尺度特征图的权重,最后,将4×4的特征图展开为一维向量经过一个包含512个神经元的全连接层和9个神经元的分类层得到最终识别结果;
其中,步骤S3.3具体包括:
根据选取出的面积最大的两个轮廓的形状和/或高度,提取出手部轮廓;
根据选取出的面积最大的两个轮廓的形状和/或高度,提取出手部轮廓,具体包括:
从选取出的面积最大的两个轮廓中,选取出轮廓高度低于另一个轮廓,且点到重心的最大距离与所有点到重心的平均距离的比值为阈值的轮廓,作为手部轮廓。
2.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:通过预设肤色皮肤色彩特征分割模型,将符合预设条件的区域作为皮肤区域,其中,预设条件为RGB图像的R值大于85、R-B值大于10且R-G值大于10;
步骤S2.2:对皮肤区域对应的图像进行二值化处理,获得二值化图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811534444.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种指纹识别柔性显示屏面板
- 下一篇:落叶剂的喷洒时间的确定方法及系统