[发明专利]一种人体姿态估计行为分析方法在审
| 申请号: | 201611016790.8 | 申请日: | 2016-11-18 |
| 公开(公告)号: | CN106780569A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
| 主分类号: | G06T7/292 | 分类号: | G06T7/292;G06T7/285;G06T7/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 人体 姿态 估计 行为 分析 方法 | ||
1.一种人体姿态估计行为分析方法,其特征在于,主要包括数据输入(一);预处理(二);深度三维卷积神经网络(三);后处理(四)。
2.基于权利要求书1所述的一种人体姿态估计行为分析方法,其特征在于,包括只采用一个单目视觉系统,将卷积神经网络方法扩展为三维卷积并应用到RGB视频上;在没有深度信息作为卷积神经网络的输入的情况下,基于2D视频帧流推断在三维空间维度下的人体关节位置;从单目视频中进行人体姿态三维建模的挑战在于姿态的巨大可变性,动作,外貌和背景,照明中的咬合和变化。
3.基于权利要求书1所述的一种人体姿态估计行为分析方法,其特征在于,采用一种从视频捕获经由一个深度三维卷积网络估计人体姿态(即人体关节位置)的方法,利用一个单2D单目相机捕获视频;这个方法的特征在于作为一个维度的时间能被编码为3D卷积运算的Z维(X维和Y维分别是图像的高和宽)。
4.基于权利要求书1所述的数据输入(一),其特征在于,采用了人体姿态数据集(有360万张3D人体姿势和对应图像),由4台经校准标准化的相机捕捉10个被试者表现15个不同动作(如吃,摆等)形成的50Hz高分辨率视频序列组成;这4台相机获取的视频彼此独立且不可联合;测试基于该数据集32个可获得的关节位置中的核心的17个;
对于每一个被试者提供以下数据:三维地面实况关节位置,人体的边界框。
5.基于权利要求书4所述的测试,有三个被试者的地面实况数据被保留并用于服务器上的结果评估。
6.基于权利要求书1所述的预处理(二),其特征在于,包括数据采样,数据调整,以及对比度归一化;利用边界框二元掩膜对该数据集进行剪裁放大成128×128的彩色图像。
7.基于权利要求书6所述的数据采样,数据调整和对比度归一化,其特征在于,对原始数据样本进行二次抽样,得到一个由5副顺序分辨率为128×128的彩色图像组成的训练数据样本;地面实况关节位置被集中到骨盆骨位置(第一个关节);深度神经网络需要在训练时解释,全局对比度归一化(GCN)被应用于网络的输入数据(每个颜色通道)。
8.基于权利要求书1所述的深度三维卷积神经网络(三),其特征在于,包括该卷积神经网络的架构以及训练得到模型;该架构涉及一个离散卷积运算的数学表达式(用*表示该运算),该表达式应用于三维数据(X,m×n×l维),使用三维翻转内核(K):
步长为1,没有补零;最佳的性能是有5个卷积层,内核层大小分别是3×5×5,2×5×5,1×5×5,1×3×3和1×3×3;最大池化是在第一、第二和第五卷积层后完成,且仅在内核空间的大为2×2的图像(而不是第三时间维度);最后的输出池层是扁平的大小为9680的一维向量,然后是完全连接到大小255的输出层(5帧×17个关节×3维)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611016790.8/1.html,转载请声明来源钻瓜专利网。





