[发明专利]基于Transformer编码器和多头多模态注意力的连续维度情感识别方法有效
申请号: | 202110759965.9 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113269277B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 陈海丰;蒋冬梅 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F18/25 | 分类号: | G06F18/25;G06N3/0455;G06N3/0464;G06N3/049;G06N3/08 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 云燕春 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 编码器 多头 多模态 注意力 连续 维度 情感 识别 方法 | ||
本发明采用时序深度卷积神经网络(TCN)、自注意力Transformer编码器(Transformer Encoder)以及多模态多头注意力机制(Multi‑modal Multi‑head Attention),涉及一种从多模态(听觉、视觉)时序信息中对连续维度情感进行估计的模型和识别方法。该方法对不同模态输入的特征,得到不同模态的嵌入特征表达;而后将不同模态的嵌入特征表达作为输入,利用多模态Transformer编码器得到不同模态的高级表征;最后将不同模态的高级特征表达作为输入,计算出每一时刻的情感状态值。本发明更加关注时序上过去某些关键时刻对当前情绪状态的影响,排除长远情感信息带来的干扰,使得模型鲁棒性提高。同时,该发明通过在模型中同时修正时序上下文依赖关系和多模态交互融合关系的方法,明显的提高了连续维度情感估计的准确度。
技术领域
本发明采用时序深度卷积神经网络(TCN)、自注意力Transformer编码器(Transformer Encoder)以及多模态多头注意力机制(Multi-modal Multi-headAttention),涉及一种从多模态(听觉、视觉)时序信息中对连续维度情感进行估计的模型和识别方法。
背景技术
自动情感识别领域近年来越来越受到人们的关注,如在人机交互领域中,机器可以自动识别被观测者的情绪,并做出相应的反应。目前情感识别领域主要分为两类,一种是离散的情感识别,即将人的情感分类为高兴,悲伤,生气等等几种常见状态;另外一种是连续的情感识别,它将人的情感状态用两个维度进行表示,其中Arousal表示兴奋程度,Valence表示愉悦程度。正是因为连续情感可以更加精细描述人的情感状态,近年来对连续情感的识别成为了研究的热点。
在过去几年中,通过音视频多模态来进行连续维度情感估计已经取得了许多重要的成果,并且大量的研究已经证明了基于多模态的连续情感识别方法效果要优于单模态的方法。文献“Multimodal Continuous Emotion Recognition with Data AugmentationUsing Recurrent Neural Networks,20188th AVEC,pp57-64”公开了一种基于音频和视频的多模态连续维度情感估计方法。此方法使用经典的LSTM作为时序模型,得到时域上下文的依赖,并完成时间序列上的回归,得到每一时刻情感状态arousal/valence的估计。另外在多模态融合上,该方法使用了两种经典的融合方法,即特征融合和决策融合。但是,这种模型在连续维度情感估计阶段,由于LSTM模型在获取时域上下文依赖时对每一帧都进行了同样的处理,无法得到有重点的选则关键的上下文依赖信息,使得模型受到了一定的局限,导致对连续维度情感估计的准确率降低,泛化性能差,无法达到精度的要求;另外在多模态融合阶段,该方法受限与特征种类多,且无法动态实时的关注到重要模态的信息的限制,导致模型计算量大,且影响了模型的估计准确率,因此该方法具有一定的局限性且难以推广。
目前研究学者已经在连续维度情感估计模型中取得了一定的成果,然而由于情感的复杂性和个体差异性,连续维度情感估计仍然面临以下挑战:
1)“关键帧”问题。在长时序的连续维度情感估计任务中,每一时刻的情感状态与最近时刻的情感状态具有强相关性,且和某些关键时刻的情感信息具有更强的相关性,同时,每一时刻的情感状态和很久之前的情感信息可能关系较小。在过去的连续维度情感估计研究中,在对每一时刻的情感状态进行估计时,过去的情感信息都是以同等重要的方式进行处理,导致了模型难以获取关键的上下文信息,影响了模型的泛化能力和准确度。
2)“多模态融合”问题。传统的多模态融合方法往往都局限于前期特征融合和后期决策融合两种方式,但是前期特征融合往往会导致特征维数高,容易过拟合,导致模型泛化能力差;对于后期决策融合,因为决策融合时的输入是不同特征回归后的结果,决策融合时并未考虑不同特征之前的互补关系,因此决策融合方法往往难以挖掘不同模态之前的互补性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110759965.9/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法