[发明专利]一种基于栈式自编码的头部姿态估计方法有效
申请号: | 201611100343.0 | 申请日: | 2016-12-05 |
公开(公告)号: | CN106599810B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 潘力立 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 张杨 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码 头部 姿态 估计 方法 | ||
1.一种基于栈式自编码的头部姿态估计方法,包括以下步骤:
步骤1:采集N幅包含不同姿态的头部深度图像,并根据采集每幅图像时摄像头的位置,记录N幅图像各自对应的头部俯仰、偏航和旋转角度,得到头部姿态向量的第1维表示俯仰角,第2维表示倾斜角,第3维表示旋转角,下标n表示第n幅图像;
步骤2:检测步骤1采集到图像的头部区域,并提取该头部区域的梯度方向直方图特征,组成梯度方向直方图特征向量
步骤3:对步骤2中得到梯度方向直方图特征向量在每一维进行数值归一化,将数值范围压缩到[0,1]区间,将姿态的范围归一化到[0,1]区间;
所述步骤3的具体方法为:
将数值范围压缩到[0,1]区间,具体做法为:对于第n个样本,其第i维的数据归一化公式
为所有样本第i维上的最小值,为所有样本第i维上最大值;
将姿态的范围归一化到[0,1]区间,具体做法为:
其中表示第n个样本的标定姿态第j维的分量,ynj表示该维归一化后的数值;
步骤4:构建栈式自编码器对应的映射函数,设输入为其中s1表示特征的维数,使用的栈式自编码器共有5层;第1层为输入层,输入层的输入为梯度方向直方图特征向量,第1层节点的个数为梯度方向直方图特征向量的维数,第2-4层为隐单元层,第5层为输出层;任意一层l的任意一个节点单元用符号表示,上标(l)表示第l层,其计算公式为:
表示连接神经网络第l层的所有sl个单元和第l+1层的第i个单元之间的参数;具体讲,表示连接第l层的第j个单元和第l+1层第i个单元之间的参数,为与第l+1层的隐单元i相关的偏差项,sl+1为第l+1层隐单元的数目;σ(·)为S形函数,其表达式为若定义则上式也可以表示为:
改栈式自编码器的输出层有3个单元,用符号表示,用以表示估计头部姿态的俯仰角、倾斜角和旋转角;整个栈式自编码模型用函数hw,b(x)表示当输入为x时的估计头部姿态,即:
步骤5:当输入为x时,假设对应的标定姿态为y,栈式自编码对姿态估计值和标定姿态之间的误差为:
同时,为了表示输出层每一个单元对误差贡献的大小定义误差项
表示的导数,利用后向传播算法,计算l=2,3,4层时每一个节点j对应的误差项;
最后得到下面两个估计误差关于和的偏导数:
步骤6:利用步骤4中的栈式自编码模型,将步骤3中归一化的梯度方向直方图特征xn作为栈式自编码的输入,对应的标定头部姿态值为[y1,...,yN],建立栈式自编码的优化目标函数:
其中和λ约束项的强度;
步骤7:求解目标函数J(w,b)关于参数和的偏导数
其中和表示当输入为xn时对应的第l层的第j个单元的输出和第l+1层第i个单元对应的误差项;最后得到目标函数J(w,b)关于参数向量w,b的梯度和
步骤8:为了求得最佳的栈式自编码参数w和b,我们需要先初始化参数,再利用梯度下降法进行优化,具体包含下面两个步骤:
(a)w和b初始化;首先随机初始化w和b,w表示为(w(1),...,w(4))T,其中w(l)表示第l层的参数;b表示为(b(1),...,b(4))T,之后逐层修正第1、2、3层的参数;当修正第1层参数时,利用梯度下降法优化参数w(1)和b(1),利用第1层网络重构原始输入特征,并使重构误差最小;当修正第2层参数时,利用梯度下降法优化参数w(2)和b(2),把第1层的输出作为第2层的输入,利用第2层网络重构原始输入特征,并使重构误差最小;当修正第3层参数时,利用梯度下降法优化参数w(3)和b(3),把第2层的输出作为第3层的输入,利用第3层网络重构原始输入特征,并使重构误差最小;对于第4层参数,利用第3层的输出作为第4层的输入,优化参数w(4)和b(4),使得输出和标定姿态之间的误差平方和最小;由此初始化第1到第4层网络;
(b)梯度下降法;根据初始化值,更新参数向量w和b,即:
其中上标[t]和[t+1]表示第t次和t+1次迭代;当w和b满足收敛条件时停止迭代;
步骤9:对于新的头部图像,确定头部区域并提取梯度方向直方图特征,数值归一化之后送入训练好的栈式自编码器中,得到对应的头部姿态估计值,并将数值范围还原到-180到+180。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611100343.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:答案信息录入方法、装置及终端设备
- 下一篇:一种VR头显的面部表情追踪方法