[发明专利]一种基于栈式自编码的头部姿态估计方法有效
申请号: | 201611100343.0 | 申请日: | 2016-12-05 |
公开(公告)号: | CN106599810B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 潘力立 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 张杨 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 该发明公开了一种基于栈式自编码的头部姿态估计方法,该发明属于计算机视觉技术领域。主要思想是提出利用栈式自编码器,建立头部深度图像和姿态之间的非线性映射关系。本发明首先采集大量头部深度图像作为训练样本,同时提取梯度方向直方图特征,然后记录对应的头部姿态。之后,设计栈式自编码器,在训练样本和标定姿态数据上,利用梯度下降法学习栈式自编码器的各层参数。最后,对于待估计姿态的头部图像,提取梯度方向直方图特征,根据上述已学习的栈式自编码器估计头部姿态。与传统的头部姿态估计方法相比,该方法能够模拟输入特征到头部姿态的复杂映射关系,有效的克服了浅层模型估计准确性不高的问题。 | ||
搜索关键词: | 一种 基于 编码 头部 姿态 估计 方法 | ||
【主权项】:
1.一种基于栈式自编码的头部姿态估计方法,包括以下步骤:步骤1:采集N幅包含不同姿态的头部深度图像,并根据采集每幅图像时摄像头的位置,记录N幅图像各自对应的头部俯仰、偏航和旋转角度,得到头部姿态向量![]()
的第1维表示俯仰角,第2维表示倾斜角,第3维表示旋转角,下标n表示第n幅图像;步骤2:检测步骤1采集到图像的头部区域,并提取该头部区域的梯度方向直方图特征,组成梯度方向直方图特征向量
步骤3:对步骤2中得到梯度方向直方图特征向量
在每一维进行数值归一化,将数值范围压缩到[0,1]区间,将姿态的范围归一化到[0,1]区间;所述步骤3的具体方法为:将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据
归一化公式![]()
为所有样本第i维上的最小值,
为所有样本第i维上最大值;将姿态的范围归一化到[0,1]区间,具体做法为:
其中
表示第n个样本的标定姿态第j维的分量,ynj表示该维归一化后的数值;步骤4:构建栈式自编码器对应的映射函数,设输入为
其中s1表示特征的维数,使用的栈式自编码器共有5层;第1层为输入层,输入层的输入为梯度方向直方图特征向量,第1层节点的个数为梯度方向直方图特征向量的维数,第2‑4层为隐单元层,第5层为输出层;任意一层l的任意一个节点单元用符号
表示,上标(l)表示第l层,其计算公式为:![]()
表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体讲,
表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,
为与第l+1层的隐单元i相关的偏差项,sl+1为第l+1层隐单元的数目;σ(·)为S形函数,其表达式为
若定义
则上式也可以表示为:
改栈式自编码器的输出层有3个单元,用符号
表示,用以表示估计头部姿态的俯仰角、倾斜角和旋转角;整个栈式自编码模型用函数hw,b(x)表示当输入为x时的估计头部姿态,即:
步骤5:当输入为x时,假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为:
同时,为了表示输出层每一个单元对误差贡献的大小定义误差项![]()
![]()
表示
的导数,利用后向传播算法,计算l=2,3,4层时每一个节点j对应的误差项;
最后得到下面两个估计误差关于
和
的偏导数:![]()
步骤6:利用步骤4中的栈式自编码模型,将步骤3中归一化的梯度方向直方图特征xn作为栈式自编码的输入,对应的标定头部姿态值为[y1,...,yN],建立栈式自编码的优化目标函数:
其中
和
λ约束项
的强度;步骤7:求解目标函数J(w,b)关于参数
和
的偏导数![]()
其中
和
表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度
和
步骤8:为了求得最佳的栈式自编码参数w和b,我们需要先初始化参数,再利用梯度下降法进行优化,具体包含下面两个步骤:(a)w和b初始化;首先随机初始化w和b,w表示为(w(1),...,w(4))T,其中w(l)表示第l层的参数;b表示为(b(1),...,b(4))T,之后逐层修正第1、2、3层的参数;当修正第1层参数时,利用梯度下降法优化参数w(1)和b(1),利用第1层网络重构原始输入特征,并使重构误差最小;当修正第2层参数时,利用梯度下降法优化参数w(2)和b(2),把第1层的输出作为第2层的输入,利用第2层网络重构原始输入特征,并使重构误差最小;当修正第3层参数时,利用梯度下降法优化参数w(3)和b(3),把第2层的输出作为第3层的输入,利用第3层网络重构原始输入特征,并使重构误差最小;对于第4层参数,利用第3层的输出作为第4层的输入,优化参数w(4)和b(4),使得输出和标定姿态之间的误差平方和最小;由此初始化第1到第4层网络;(b)梯度下降法;根据初始化值,更新参数向量w和b,即:![]()
其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代;步骤9:对于新的头部图像,确定头部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的栈式自编码器中,得到对应的头部姿态估计值,并将数值范围还原到‑180到+180。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611100343.0/,转载请声明来源钻瓜专利网。
- 上一篇:答案信息录入方法、装置及终端设备
- 下一篇:一种VR头显的面部表情追踪方法