[发明专利]一种基于时空上下文学习的手部姿态估计方法在审

申请号：	201911235772.2	申请日：	2019-12-05
公开（公告）号：	CN111178142A	公开（公告）日：	2020-05-19
发明（设计）人：	李玺;吴一鸣	申请（专利权）人：	浙江大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	傅朝栋;张法高
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时空上下文学习姿态估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于时空上下文学习的手部姿态估计方法，用于在给定连续深度图像的情况下，能够输出每一帧中手部节点的三维坐标。具体包括如下步骤：获取用于训练手部姿势估计的连续帧深度图像数据集，并定义算法目标；在空间以及时间维度上使用空间网络以及时间网络分别建模对应上下文信息；根据输入图像使用融合网络为时间空间模型的输出进行融合；建立手部姿态估计的预测模型；使用所述的预测模型对连续帧深度图像进行手部姿态估计。本发明使用与真实视频中的手部姿态估计，面对各类复杂情况具有较佳的效果和鲁棒性。

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于时空上下文学习的手部姿态估计方法。

背景技术

手部姿态估计被定义为如下问题：在给定包含手部的深度图像中发现并给出手部关节点相对摄像机的具体位置。手部姿态估计常用于人机交互、增强现实或虚拟现实应用中。传统方法通过对手部使用参数化模型进行表达，并定义能量函数进行模型参数的优化，但是由于基于模型的方法计算消耗较为昂贵以及今年来深度神经网络的发展，基于表观特征的方法从数据中发掘手部姿态的模式，并且资源消耗与基于模型的方法相比更小。

由于统计建模的有效性，目前基于学习的方法逐渐被应用到手部姿态估计任务中。现有的基于表观特征的学习方法主要采用的是端到端的深度神经网络模型，通过输入单帧或多帧包含手部的深度图像，输出预测的手部关节点位置。一方面，现今大部分方法使用深度图像或三维体素作为输入，本发明认为两种输入相互关联，并可以相互进行补充；另一方面，在实际场景中多帧深度图像间具有相关性，通过在时间维度上建模上下文信息提高网络的预测准确性。

发明内容

为解决上述问题，本发明的目的在于提供一种基于时空上下文学习的手部姿态估计方法。该方法基于深度神经网络，利用神经网络对深度图像以及三维体素输入进行特征提取并有效融合，从时间维度上使用递归神经网络对多帧图像特征之间的关系进行建模，可以提高多帧场景下的手部姿态估计。

为实现上述目的，本发明的技术方案为：

一种基于时空上下文学习的手部姿态估计方法，其包括以下步骤：

S1、获取用于训练手部姿态估计的连续帧深度图像数据集；

S2、在空间以及时间维度上使用空间网络以及时间网络分别建模对应的上下文信息；

S3、根据输入图像使用融合网络为时间空间模型的输出进行融合；

S4、建立手部姿态估计的预测模型；

S5、使用所述的预测模型对连续帧深度图像进行手部姿态估计。

基于上述技术方案，各步骤可采用如下优选方式实现。

优选的，步骤S1中，获取用于训练手部姿态估计的连续帧深度图像数据集，包括N个训练视频，每个训练视频中含有连续帧深度图像(X₁，...，X_T)_train，以及预先标注的手部关节点位置(J₁，...，J_T)_train。

进一步的，步骤S2中，在空间以及时间维度上使用空间网络以及时间网络分别建模对应的上下文信息具体包括：