[发明专利]一种单目彩色视频的三维人体关节点定位方法在审
申请号: | 201710453792.1 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107392097A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 聂琳;王可泽;林木得;成慧;王青 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州番禺容大专利代理事务所(普通合伙)44326 | 代理人: | 刘新年 |
地址: | 510275 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 彩色 视频 三维 人体 关节点 定位 方法 | ||
1.一种单目彩色视频的三维人体关节点定位方法,其特征在于,包括以下步骤:
S1、构建可配置的深度模型,并在该深度模型中引入时序信息;
其中,所述深度模型包括互相串联的卷积神经网络和长短时记忆网络;
所述卷积神经网络用于对视频数据进行逐帧处理,提取二维图像中人物的二维人体关节点特征,并将二维图像中人物的二维人体关节点特征转化到三维人体关节点坐标相关的特征空间;
所述长短时记忆网络用于结合当前帧及其之前的连续多帧二维图像的特征信息,预测出当前帧二维图像的三维人体关节点坐标;
S2、采集训练样本,并利用训练样本学习出深度模型的参数;所述训练样本包括:被转换成连续多帧二维图像的视频数据、每帧二维图像对应的真实的二维人体关节点坐标和三维人体关节点坐标;其中,视频数据和二维人体关节点坐标用于供深度模型学习出构建卷积神经网络的参数,视频数据和三维人体关节点坐标用于供深度模型学习出构建长短时记忆网络的参数;
S3、利用S2中学习得到的参数对深度模型进行初始化,将需要进行三维人体关节点定位的单目彩色视频数据转化为连续多帧二维图像,输入深度模型以进行分析;针对每帧二维图像,输出其中人物的三维人体关节点坐标。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括互相串联的二维特征抽取模块和特征转化模块;
所述二维特征抽取模块包括依次串联的多个二维卷积层和穿插连接于二维卷积层之间的多个降采样层,用于提取二维图像的人物相关特征;所述特征转化模块包括依次串联的多个二维卷积层和1个第一全连接层,用于将二维图像的人物特征转化到三维人体关节点坐标相关的特征空间,最终通过第一全连接层输出到长短时记忆网络;
所述长短时记忆网络包括互相串联的长短时记忆层和第二全连接层;所述长短时记忆层包括依次连接的多个长短时记忆单元,用于引入连续多帧二维图像的时序信息,将经卷积神经网络处理得到的当前帧及其之前的连续多帧二维图像的特征信息按照时序排列并记忆,以在预测当前帧二维图像的三维人体关节点坐标时提供参考;所述第二全连接层用于最终输出预测的当前帧二维图像的三维人体关节点坐标。
3.根据权利要求2所述的方法,其特征在于,在所述卷积神经网络中,每个二维卷积层后面连接一个矫正线性单元层;
所述二维卷积层用于对输入的图像或者特征图在二维空间上进行卷积运算,提取层次化特征;
所述降采样层使用没有重叠的max-pooling操作,用于提取形状和偏移不变的特征,同时减少特征图大小,提高计算效率;
所述矫正线性单元层采用非线性阀值函数,对输入信号进行只允许非负信号通过的变化。
4.根据权利要求2所述的方法,其特征在于,所述第一全连接层为隐藏层,是在二维卷积层的输出上建立的感知机模型;
具体地,所述特征转化模块中的二维卷积层用于大幅减小特征图的大小,第一全连接层用于将前面各层处理得到的二维关节点特征图串联成一个特征序列,该序列是从单目彩色视频中抽取到的特征,它的每一维元素都连向隐藏层的所有节点,输出人物三维关节点特征并进一步全连接到长短时记忆网络的输入;
所述第二全连接层为逻辑回归层,是整个深度模型的输出;
具体地,作为深度模型输出的第二全连接层的输出将长短时记忆层的输出映射到一个Kx3维的实数序列,其中K为人体关节点的数量;所述实数序列中每三个单元的输出为单目彩色视频中人物对应关节点的三维坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710453792.1/1.html,转载请声明来源钻瓜专利网。