[发明专利]一种基于自注意力变换网络的动态人脸表情识别方法在审
| 申请号: | 202110923668.3 | 申请日: | 2021-08-12 |
| 公开(公告)号: | CN113627349A | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 刘青山;赵增群 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06N3/04 |
| 代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 李小静 |
| 地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 变换 网络 动态 表情 识别 方法 | ||
1.一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于包含以下步骤:
步骤一:在空间维度上设计了一种联合深度卷积神经网络的空间自注意力变换网络,通过编码局部特征之间的相互关系,从而获得对自然环境下人脸姿态变化和遮挡鲁棒的人脸表情特征;
步骤二:在时间维度上设计了一种时序自注意力变换网络,通过编码人脸表情视频各帧之间的相互关系,从而获得具有上下文感知的时序人脸表情特征。
2.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤一中的联合深度卷积神经网络由五个卷积模块和三个空间编码器组成,每一个空间编码器主要由多头的空间自注意力和前向传播网络组成。
3.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤一中的联合深度卷积神经网络的空间自注意力变换网络包含以下步骤:
第一步:给定一个人脸视频,首先将输入视频分为U个片段,然后从每个片段中随机采样V帧,最后将采样得到的T=U×V帧序列送入人脸检测器中检测并裁剪人脸区域,T帧人脸序列标记为
第二步:对于每一帧人脸图像,该网络利用四个卷积块提取特征图接着将特征图M的维度变为这样就可以得到Q个视觉词向量,并且每个词向量的长度为C,然后空间编码器的输入可由如下操作得到:
其中,代表一个可学习的位置编码;p∈{1,2,…,Q}.
第三步:该网络包含三个空间编码器,在每一个编码器l上,每一个视觉词的查询向量q、键值向量k、数值向量v都是通过前层的计算得到的,可由如下操作计算:
其中,LN(·)代表层归一化,k∈{1,…,K}代表多头自注意力每一个头的索引,K代表所有的头数,C′=C/K表示多头自注意力隐藏层的维度;
第四步:每一个查询p的权重可通过点乘计算得到,即:
其中SM代表SoftMax激活函数;
第五步:为了计算每一个块l的编码首先利用每一个头的自注意力系数计算数值向量的加权和,即:
第六步:然后,所有注意力头的串联结果通过一个带有残差连接的多层感知机映射,可由如下操作计算:
第七步:最后,将Q个编码在空间维度上串联起来得到优化后的特征图每一帧的特征编码可由如下操作得到:
x′t=GAP(g(Mr)) (7)
其中,g(·)代表卷积模块;GAP代表全局平均池化;t∈{1,2,…,T},因为所有的视频帧都共享该网络,因此给定一个输入所有帧的特征表达可以通过一个该网络获得。
4.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤二中的时序自注意力变换网络由三个时序编码器组成,其中每个编码器由时间上的多头自注意力和前向传播网络组成。
5.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤二中的时序自注意力变换网络由以下步骤组成:
第一步:给定一个输入即可得到T个空间特征向量。然后该网络的输入可由如下操作得到:
其中代表一个可学习的位置编码;t′∈{0,1,…,T}。和空间自注意力网络不同的是,我们在序列的第一个位置添加了一个特殊的可学习的类别向量
第二步:该网络每一层l的查询向量键值向量数值向量可由公式(2)计算获得,其中F′=F/K。
每一个查询向量t′的自注意力权重可由如下操作计算:
每一个块l的编码可由以下操作计算:
最终的序列特征表示从该网络最后一层的分类向量中获得,可由以下操作计算:
其中,FC代表全连接网络,J代表人脸表情的类别数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110923668.3/1.html,转载请声明来源钻瓜专利网。





