[发明专利]基于注意力机制融合多流图的人体姿态预测方法及系统在审

申请号：	202110539624.0	申请日：	2021-05-18
公开（公告）号：	CN113642379A	公开（公告）日：	2021-11-12
发明（设计）人：	袁丁;曹哲;魏晓东;尹继豪;张雪怡	申请（专利权）人：	北京航空航天大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06N3/04;G06N3/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	金怡;江亚平
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制融合多流图人体姿态预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制融合多流图神经网络的人体姿态预测方法，其特征在于，包括：

步骤S1：获取用于训练的人体关键关节的三维位置数据序列，根据预设的输入序列和输出序列的长度，将三维位置数据序列分割为所述输入序列和所述输出序列；根据所述输入序列构建图数据；

步骤S2：构建基于注意力机制融合多流图神经网络模型；将所述图数据输入所述基于注意力机制融合多流图神经网络模型进行训练，得到训练好的所述基于注意力机制融合多流图神经网络模型；

步骤S3：获取用于预测的人体关键关节的三维位置数据序列，构建所述图数据，输入训练好的所述基于注意力机制融合多流图神经网络模型，得到人体姿态的预测值。

2.根据权利要求1所述的基于注意力机制融合多流图神经网络的人体姿态预测方法，其特征在于，所述步骤S1：获取用于训练的人体关键关节的三维位置数据序列，根据预设的输入序列和输出序列的长度，将三维位置数据序列分割为所述输入序列和所述输出序列；根据所述输入序列构建图数据，具体包括：

步骤S11：获取用于训练的人体关键关节的三维位置的数据序列f×n×3，其中，f表示所述数据序列的帧数，n表示关节数量；

步骤S12：将所述数据序列的前t帧数据作为所述输入序列，(f-t)帧数据作为所述输出序列；其中，所述输入序列表示为t×n×3；所述输出序列表示为(f-t)×n×3；

步骤S13：根据所述输入序列t×n×3构建节点矩阵V以及邻接矩阵A，并由此构建全连接图G_all＝(V,A_all)、高自由度关节连接图G_mobile＝(V,A_mobile)和低自由度关节连接图G_stable＝(V,A_stable)；其中，A_all表示全部关节间联系关系的全连接邻接矩阵，A_mobile表示高自由度关节间联系关系的高自由度关节邻接矩阵，A_stable表示低自由度关节间联系的低自由度关节邻接矩阵。

3.根据权利要求1所述的基于注意力机制融合多流图神经网络的人体姿态预测方法，其特征在于，所述步骤S2：构建基于注意力机制融合多流图神经网络模型；将所述图数据输入所述基于注意力机制融合多流图神经网络模型进行训练，得到训练好的所述基于注意力机制融合多流图神经网络模型，具体包括：

步骤S21：所述的基于注意力机制融合多流图神经网络采用编码器和解码器结构，其中，所述编码器包含多个编码模块；将所述图数据输入所述编码器进行特征提取，所述编码模块的输出如下述公式(4)所示：

Out_i＝Att_i(GCN_all1(G_all),GCN_stable1(G_stable),GCN_mobile1(G_mobile)) (4)

其中，第i个编码模块的输出Out_i＝(G_all1,G_stable1,G_mobile1)包含三个图数据；GCN(·)表示单个图神经网络层；Att_i(·)表示第i个注意力模块；

步骤S22：所述单个图神经网络层的输入为G＝(V,A)，输出为X，表示为如下公式(5):

X＝ReLU(AVW+VU) (5)

其中，W和U为可训练的权重矩阵，其大小为(t×3)×D，D为期望图神经网络层的输出的特征维数；

步骤S23：所述注意力模块的输入为G₁＝(V₁,A_all),G₂＝(V₂,A_stable),G₃＝(V₃,A_mobile)，输出为X'＝(G_out1,G_out2,G_out3)，二者关系表示如下述公式(6)～(8)：

V_mid4＝GCN₂(CONCAT(V_mid1,V_mid2,V_mid3)) (7)

其中，CONCAT(·)表示在特征维度上的矩阵拼接操作；SoftMax(·)表示归一化指数函数；W_1,1W_1,2……W_3,2等表示不同的线性层的可训练参数；V_mid1、V_mid2、V_mid3、V_mid4为中间变量；

步骤S24：所述编码器的输出隐变量H如下述公式(9)所示：

H＝λ₁V_allf+λ₂V_stablef+λ₃V_mobilef (9)

其中，最后一个所述编码模块的输出为Out_f＝(G_allf,G_stablef,G_mobilef)，G_allf＝(V_allf,A_all)，G_stablef＝(V_stablef,A_stable)，G_mobilef＝(V_mobilef,A_mobile)；λ₁、λ₂、λ₃分别为可配置参数；

步骤S25：将所述隐变量H输入所述解码器，使用所述解码器对人体姿态进行预测，表示如下述公式(10)：

Out_T+1＝Out_T+f_pred(GRU(Out_T,H_T)) (10)

其中，在T时刻，人体的姿态为Out_T；f_pred(·)为表示多层感知机，GRU(·)表示图门控循环网络，H_T为此时的隐藏变量；

步骤S26：使用梯度下降法对参数进行训练，设置损失函数如下述公式：

其中，所述解码器输出的(f-t)帧输出序列的数据，该数据Output大小为(f-t)×n×3，Output_gt为期望输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110539624.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力机制融合多流图的人体姿态预测方法及系统在审

专利文献下载