[发明专利]使用深度神经网络的从粗略到精细的手部检测方法有效
申请号: | 201780003226.9 | 申请日: | 2017-06-06 |
公开(公告)号: | CN108521820B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 杨子璇;俞大海;刘壮;周均扬;柴秀娟;山世光;陈熙霖 | 申请(专利权)人: | 美的集团股份有限公司;中科视拓(北京)科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 528311 广东省佛山市顺德区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 深度 神经网络 粗略 精细 检测 方法 | ||
提供识别包含图像中的一个或多个主体的一只或多只手的一个或多个区域的检测过程。检测过程可以开始于使用粗略CNN在图像中粗略地定位包含图像中的(一个或多个)主体的(一只或多只)手的部分的一个或多个片段。检测过程然后可以组合这些片段以获得捕获图像中的(一个或多个)主体的(一只或多只)手的一个或多个区域。(一个或多个)组合区域然后可以被馈送到基于网格的深度神经网络,以精细地检测图像中仅包含捕获的(一个或多个)主体的(一只或多只)手的(一个或多个)区域。
技术领域
本发明涉及计算机化手部检测领域。
背景技术
一些现有的手部检测技术依靠机器学习来确定在图像中捕获的(一只或多只)手的位置和大小。在这些技术的工作下,通常建立训练集来产生可靠的分类或回归函数。检测到的手和底层训练集的噪声和失真可能会抑制可靠的分类或回归。
由于各种手势、照明变化、复杂的背景、图像中的肤色干扰等,手部检测是具有挑战性的。用于手部检测的机器学习过程通常需要大量的训练数据,这些训练数据表示将在非受控场景中观察到的手的位置和大小。
这些技术的训练数据可以通过手动标注来获得。手的位置和大小可以从训练数据中提取。这些技术中的一些使用卷积神经网络(CNN),其可以被训练以提取手的特征。例如,于2016年1月19日提交的标题为“基于级联卷积神经网络的自我中心视野空中手写和空中交互方法”的中国专利申请号CN1057181078A描述了一种可以被训练以从特定角度分析主体的手的RGB图像的CNN。中国专利申请号CN1057181078A通过引用被结合于此。诸如在CN1057181078A中描述的深度CNN在手部检测方面具有良好的性能。
已经证明,深度CNN在捕捉特征方面具有良好的性能,但是基于CNN的技术通常需要大的计算能力用于训练和测试。一个原因是为了实现更高的准确度,基于CNN的手部检测技术在CNN中需要更多的层并且因此需要更多的计算能力。这些深度CNN的使用也会是耗时的。因此,需要改进现有的基于CNN的手部检测技术以提高效率。
发明内容
实施例可以提供一种检测包含图像中的一个或多个主体的一只或多只手的一个或多个区域的过程。然后,由该过程检测到的图像中的(一个或多个)区域可以被馈送到手势识别过程用于识别检测到的(一只或多只)手的手势。在一些实施例中,检测过程可以开始于使用非常简单和快速实现的粗略定位网络在图像中粗略地定位包含图像中的(一个或多个)主体的(一只或多只)手的部分的一个或多个片段。在那些实施例中,检测过程然后可以组合这些片段以获得图像中的捕获(一个或多个)主体的(一只或多只)手的一个或多个区域。在一些实施例中,检测过程可以扩展图像中的(一个或多个)组合区域,使得它们可以包括关于(一个或多个)主体的(一只或多只)手的一些上下文信息,并且可以被配准到网格,该网格的每个网格单元具有相同的预定大小。然后,(一个或多个)扩展区域可以被馈送到基于精细网格的检测网络,以检测图像中仅包含捕获的(一个或多个)主体的(一只或多只)手的(一个或多个)确切区域。与现有技术的基于CNN的手部检测技术相比,根据本公开的实施例可以通过仅将被预测包含(一个或多个)主体的(一只或多只)手的个别图像中的(一个或多个)区域和所需上下文馈送到在基于精细网格的检测网络中使用的CNN来减少馈送到基于精细网格的检测网络的输入图像数据量。这可以减少基于精细网格的检测网络的输入数据量,从而减少用于手部检测的时间。
在一些实施例中,可以训练简单级联CNN(例如,两个子阶段)并将其用作粗略定位网络以在图像中定位包含主体的手的片段。给定图像中的定位片段可以包含主体的手的不同部分。这可以被理解为主体的手的粗略位置。在这种粗略定位网络中使用的CNN可以非常小并且易于实现,因此其实现所需的计算资源相对较少。定位片段中的手的部分可以彼此重叠。例如,第一定位片段可以包含与第二定位片段中的主体的手的一部分(在空间上)部分重叠的主体的手的一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美的集团股份有限公司;中科视拓(北京)科技有限公司,未经美的集团股份有限公司;中科视拓(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780003226.9/2.html,转载请声明来源钻瓜专利网。