[发明专利]一种基于情景注意力神经网络的多模态情感识别方法有效
申请号: | 202011206336.5 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112348075B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 王塔娜;候亚庆;张强;周东生;王鹏飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情景 注意力 神经网络 多模态 情感 识别 方法 | ||
1.一种基于情景注意力神经网络的多模态情感识别方法,其特征在于,具体步骤如下:
S1:将视频中的对话部分划分为t条的语句U=[u1,u2,…,ut],选取对话中所有说话人的多模态数据,多模态数据包括语音、文本和图像数据;
S2:针对步骤S1划分好的每条语句,在多模态数据中的各个单模态上分别进行特征提取,得到每条语句上的各模态的高维特征向量,即语音特征向量、文本特征向量、图像特征向量,具体特征提取方法如下:
语音特征提取:首先,对视频中所含的语音文件进行分割处理,形成.wav序列文件;为了识别有语音和无语音样本,采用z标准化技术进行语音归一化;使用openSMILE工具箱提取语音特征,包括响度、频率、Mel倒谱系数、过零率等以及其统计量,统计量包括均值、平方根、二次均值,计算得到第i条语句的语音特征
文本特征提取:使用CNN进行文本特征提取,将要提取特征的文本输入到神经网络中,全连接层的输出作为第i条语句的文本模态特征
图像特征提取:使用3D-CNN进行视频中图像特征提取,将要提取特征的视频输入到神经网络中,计算得到第i条语句的图像特征
S3:将步骤S2中提取到的三类单模态特征进行融合;引入基于注意力机制的融合网络,将音频、文本和图像模态作为输入,并为每个模态输出一个注意分数,进而保留各模态中的重要信息;将步骤S2中获得的各模态特征,进行特征融合并得到融合后的特征F;
设X=[Xa,Xt,Xv]为尺寸为d的维度均衡后的特征集,其中Xa为声学特征,Xt文本特征,Xv为视觉特征,且注意力权重系数αfuse和融合之后的多模态特征向量F的计算如下:
PF=tanh(WF·X)
其中,PF是X的隐藏单元状态,权重矩阵注意力权重系数
S4:提取说话人的个人情感依赖关系和全局对话情景特征;
S4.1:对于说话人的个人情感依赖关系特征的提取,为每位说话人都设置门控循环单元其中λ∈{1,2,…,n},用于捕捉说话人λ对历史情感状态的依赖关系,并将步骤S3中融合后的多模态特征向量F送入门控循环单元,并输出目标说话人λ的待检测目标语句t的多模态特征hλ,t和个人情感依赖关系特征矩阵Hp;
对于说话人λ的某一语句t的历史情感状态更新公式如下:
rt=σ(Wr·[hλ,t-1,xt]+br)
zt=σ(Wz·[hλ,t-1,xt]+bz)
其中,xt是第t个句子的特征表示,σ表示sigmoid激活函数,W*为权重矩阵,b*为偏置量,rt为重置门状态输出,zt为更新门状态输出,是句子t的候选隐藏状态,hλ,t为目标语句t的隐藏层状态;得到个人情感依赖关系特征矩阵Hp=[h1,1,h1,2,…,h1,t-1,…,hn,t-1];
S4.2:对于全局对话全局特征的提取,将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息,得到的全局对话特征HG,正向隐藏状态和反向隐藏状态的具体公式如下:
其中,Ut表示第t条语句,经过双向GRU网络得到对话全局特征
S5:在基于情景注意力机制的多模态情感识别模型中,将目标语句的多模态特征hλ,t、目标说话人的个人情感依赖关系特征Hp一起组成个人特征向量组,与对话全局特征HG一起送入到情感特征检测网络中进行计算;所述的基于情景注意力机制的多模态情感识别模型如下:
其中,e(·)为分类评分计算公式,αt为注意力权重系数,hc为基于情景注意力机制的多模态情感识别模型的隐藏层状态;权重向量权重矩阵Wc,Wp,偏差向量最终输出隐藏层状态hc用于情感分类;定义的评分计算公式e(·)根据个人情感依赖关系特征Hp和对话全局特征HG,迭代遍历对话的隐含状态hλ,t;利用获得的注意力权重系数αt,对目标语句的多模态特征hλ,t进行加权池化,不断地修正目标语句的情感表示hc;
S6:使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率;使用分类交叉熵损失函数作为训练的代价度量,最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态;
softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:
y=softmax(Wo·hc+bo)
其中,y是所有真实的情感标签,Wo是权重矩阵,bo为偏差项,为预测概率,c为情感类数,N表示样本数量,yi,j表示第i句话是第j类情感的真实标签,表示第i句话是第j类情感的预测概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011206336.5/1.html,转载请声明来源钻瓜专利网。