[发明专利]基于注意力机制融合多流图的人体姿态预测方法及系统在审
| 申请号: | 202110539624.0 | 申请日: | 2021-05-18 |
| 公开(公告)号: | CN113642379A | 公开(公告)日: | 2021-11-12 |
| 发明(设计)人: | 袁丁;曹哲;魏晓东;尹继豪;张雪怡 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 金怡;江亚平 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意力 机制 融合 多流图 人体 姿态 预测 方法 系统 | ||
1.一种基于注意力机制融合多流图神经网络的人体姿态预测方法,其特征在于,包括:
步骤S1:获取用于训练的人体关键关节的三维位置数据序列,根据预设的输入序列和输出序列的长度,将三维位置数据序列分割为所述输入序列和所述输出序列;根据所述输入序列构建图数据;
步骤S2:构建基于注意力机制融合多流图神经网络模型;将所述图数据输入所述基于注意力机制融合多流图神经网络模型进行训练,得到训练好的所述基于注意力机制融合多流图神经网络模型;
步骤S3:获取用于预测的人体关键关节的三维位置数据序列,构建所述图数据,输入训练好的所述基于注意力机制融合多流图神经网络模型,得到人体姿态的预测值。
2.根据权利要求1所述的基于注意力机制融合多流图神经网络的人体姿态预测方法,其特征在于,所述步骤S1:获取用于训练的人体关键关节的三维位置数据序列,根据预设的输入序列和输出序列的长度,将三维位置数据序列分割为所述输入序列和所述输出序列;根据所述输入序列构建图数据,具体包括:
步骤S11:获取用于训练的人体关键关节的三维位置的数据序列f×n×3,其中,f表示所述数据序列的帧数,n表示关节数量;
步骤S12:将所述数据序列的前t帧数据作为所述输入序列,(f-t)帧数据作为所述输出序列;其中,所述输入序列表示为t×n×3;所述输出序列表示为(f-t)×n×3;
步骤S13:根据所述输入序列t×n×3构建节点矩阵V以及邻接矩阵A,并由此构建全连接图Gall=(V,Aall)、高自由度关节连接图Gmobile=(V,Amobile)和低自由度关节连接图Gstable=(V,Astable);其中,Aall表示全部关节间联系关系的全连接邻接矩阵,Amobile表示高自由度关节间联系关系的高自由度关节邻接矩阵,Astable表示低自由度关节间联系的低自由度关节邻接矩阵。
3.根据权利要求1所述的基于注意力机制融合多流图神经网络的人体姿态预测方法,其特征在于,所述步骤S2:构建基于注意力机制融合多流图神经网络模型;将所述图数据输入所述基于注意力机制融合多流图神经网络模型进行训练,得到训练好的所述基于注意力机制融合多流图神经网络模型,具体包括:
步骤S21:所述的基于注意力机制融合多流图神经网络采用编码器和解码器结构,其中,所述编码器包含多个编码模块;将所述图数据输入所述编码器进行特征提取,所述编码模块的输出如下述公式(4)所示:
Outi=Atti(GCNall1(Gall),GCNstable1(Gstable),GCNmobile1(Gmobile)) (4)
其中,第i个编码模块的输出Outi=(Gall1,Gstable1,Gmobile1)包含三个图数据;GCN(·)表示单个图神经网络层;Atti(·)表示第i个注意力模块;
步骤S22:所述单个图神经网络层的输入为G=(V,A),输出为X,表示为如下公式(5):
X=ReLU(AVW+VU) (5)
其中,W和U为可训练的权重矩阵,其大小为(t×3)×D,D为期望图神经网络层的输出的特征维数;
步骤S23:所述注意力模块的输入为G1=(V1,Aall),G2=(V2,Astable),G3=(V3,Amobile),输出为X'=(Gout1,Gout2,Gout3),二者关系表示如下述公式(6)~(8):
Vmid4=GCN2(CONCAT(Vmid1,Vmid2,Vmid3)) (7)
其中,CONCAT(·)表示在特征维度上的矩阵拼接操作;SoftMax(·)表示归一化指数函数;W1,1W1,2……W3,2等表示不同的线性层的可训练参数;Vmid1、Vmid2、Vmid3、Vmid4为中间变量;
步骤S24:所述编码器的输出隐变量H如下述公式(9)所示:
H=λ1Vallf+λ2Vstablef+λ3Vmobilef (9)
其中,最后一个所述编码模块的输出为Outf=(Gallf,Gstablef,Gmobilef),Gallf=(Vallf,Aall),Gstablef=(Vstablef,Astable),Gmobilef=(Vmobilef,Amobile);λ1、λ2、λ3分别为可配置参数;
步骤S25:将所述隐变量H输入所述解码器,使用所述解码器对人体姿态进行预测,表示如下述公式(10):
OutT+1=OutT+fpred(GRU(OutT,HT)) (10)
其中,在T时刻,人体的姿态为OutT;fpred(·)为表示多层感知机,GRU(·)表示图门控循环网络,HT为此时的隐藏变量;
步骤S26:使用梯度下降法对参数进行训练,设置损失函数如下述公式:
其中,所述解码器输出的(f-t)帧输出序列的数据,该数据Output大小为(f-t)×n×3,Outputgt为期望输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110539624.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种黑茶加工培养金花成型方法
- 下一篇:一种制备氮杂并环类化合物的方法





