[发明专利]一种针对单目视频的三维人体姿态估计方法在审
申请号: | 202110648734.0 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113313731A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 姚莉;游文彦;杨俊宴;吴含前 | 申请(专利权)人: | 东南大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06T5/00;G06N3/08;G06N3/04 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 目视 三维 人体 姿态 估计 方法 | ||
本发明公开一种针对单目视频的三维人体姿态估计方法。首先对输入的单目人体运动视频,采用级联金字塔结构的二维姿态检测器进行二维关节坐标提取,并输出为二维关节序列;根据二维关节序列极值点与前后帧差异构建噪声阈值约束,通过阈值滤波器对二维关节序列进行平滑降噪;然后对输入若干帧二维关节序列进行升维卷积;构建时序扩张卷积模型;再采用切片方法在每层卷积结构中进行残差连接并构建联合损失函数;最后利用时序卷积模型输出的三维关节坐标序列重建与单目人体运动视频相对应的三维姿态结果。本发明能够应对单目视频场景下的三维人体姿态估计需求,并能有效提升序列图像下的姿态估计效果,生成一段高精度的三维人体关节点运动视频。
技术领域
本发明涉及一种姿态估计方法,特别涉及一种针对单目视频的三维人体姿态估计方法,属于计算机视觉和图像处理领域。
背景技术
人体姿态估计一直都是计算机视觉领域的主要研究方向,其作为一种基础性研究,在人机交互、行为识别、人物跟踪、动画制作等多个领域都应用广泛。早期的研究受限于硬件性能、理论基础和匮乏的数据集等多种因素,对人体姿态估计的研究大多局限在二维平面。随着人体姿态估计技术的广泛应用,业界对于姿态估计的精准度和信息丰富度提出了更高的要求,现有的二维姿态估计由于缺少第三维度的信息,不能很好的检测实际场景下的真实运动人体,这使得三维人体姿态估计成为研究的热点之一。其中,基于单目图像的三维人体姿态估计相比于多目及深度图像具有更好的环境普适性,且对图像采集设备要求较低,因而具有更大的工程应用市场。针对单目视频场景,在应对多样化的人体运动背景,现阶段三维人体姿态估计中,仍然存在着以下几个问题:(1)视频场景局限于室内;(2)三维姿姿态精确度不高;(3)运动姿态缺乏缺乏连贯性,这些问题导致目前的三维人体姿态方法对于各类受约束场景下的估计效果较差,并且在视频场景容易出现姿态不连贯的不自然现象,不能很好地利用起视频中丰富的时间维度信息。
发明内容
本发明为解决上述问题,提供了一种针对单目视频的三维人体姿态估计方法,这种方法能够应对单目视频场景下的三维人体姿态估计需求,同时采用该方法可以得到高质量的姿态估计结果。
为了实现上述目的,本发明的技术方案如下:一种单目视频的三维人体姿态估计方法,联合使用了基于人体关节运动先验知识的平滑算法,改进了单目视频场景下的三维姿态效果,包括以下步骤:
步骤1:对输入的单目人体运动视频,采用级联金字塔结构的二维姿态检测器进行二维关节坐标提取,并输出为二维关节序列。本发明不依赖于任何特定的二维关键点检测器,这使得能够在场景丰富的室外使用模型。除了堆叠沙漏探测器,本发明也可使用带有ResNet-101-FPN主干的Mask R-CNN,使用其在Detectron中的参考实现,以及代表FPN扩展的级联金字塔网络(CPN)。对于Mask R-CNN和CPN,从COCO上的预训练模型开始,并在Human3.6M的二维投影上微调探测器,对于Mask R-CNN,采用了一个ResNet-101骨干网,当微调Human3.6M模型时,重新初始化关键点网络的最后一层,以及使热图回归的解卷层,以学习一组新的关键点。对于CPN,本发明使用分辨率为384×288的ResNet-50主干网,并重新初始化Global-Net和Refine-Net的最终层(卷积权重和批处理规范化统计信息)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110648734.0/2.html,转载请声明来源钻瓜专利网。