[发明专利]一种基于情景注意力神经网络的多模态情感识别方法有效

申请号：	202011206336.5	申请日：	2020-11-02
公开（公告）号：	CN112348075B	公开（公告）日：	2022-09-20
发明（设计）人：	王塔娜;候亚庆;张强;周东生;王鹏飞	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉;温福雪
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于情景注意力神经网络多模态情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于情景注意力神经网络的多模态情感识别方法，其特征在于，具体步骤如下：

S1：将视频中的对话部分划分为t条的语句U＝[u₁,u₂,…,u_t]，选取对话中所有说话人的多模态数据，多模态数据包括语音、文本和图像数据；

S2：针对步骤S1划分好的每条语句，在多模态数据中的各个单模态上分别进行特征提取，得到每条语句上的各模态的高维特征向量，即语音特征向量、文本特征向量、图像特征向量，具体特征提取方法如下：

语音特征提取：首先，对视频中所含的语音文件进行分割处理，形成.wav序列文件；为了识别有语音和无语音样本，采用z标准化技术进行语音归一化；使用openSMILE工具箱提取语音特征，包括响度、频率、Mel倒谱系数、过零率等以及其统计量，统计量包括均值、平方根、二次均值，计算得到第i条语句的语音特征

文本特征提取：使用CNN进行文本特征提取，将要提取特征的文本输入到神经网络中，全连接层的输出作为第i条语句的文本模态特征

图像特征提取：使用3D-CNN进行视频中图像特征提取，将要提取特征的视频输入到神经网络中，计算得到第i条语句的图像特征

S3：将步骤S2中提取到的三类单模态特征进行融合；引入基于注意力机制的融合网络，将音频、文本和图像模态作为输入，并为每个模态输出一个注意分数，进而保留各模态中的重要信息；将步骤S2中获得的各模态特征，进行特征融合并得到融合后的特征F；

设X＝[X_a,X_t,X_v]为尺寸为d的维度均衡后的特征集，其中X_a为声学特征，X_t文本特征，X_v为视觉特征，且注意力权重系数α_fuse和融合之后的多模态特征向量F的计算如下：

P_F＝tanh(W_F·X)

其中，P_F是X的隐藏单元状态，权重矩阵注意力权重系数

S4：提取说话人的个人情感依赖关系和全局对话情景特征；

S4.1：对于说话人的个人情感依赖关系特征的提取，为每位说话人都设置门控循环单元其中λ∈{1,2,…,n}，用于捕捉说话人λ对历史情感状态的依赖关系，并将步骤S3中融合后的多模态特征向量F送入门控循环单元，并输出目标说话人λ的待检测目标语句t的多模态特征h_λ,t和个人情感依赖关系特征矩阵H_p；

对于说话人λ的某一语句t的历史情感状态更新公式如下：

r_t＝σ(W_r·[h_λ,t-1,x_t]+b^r)

z_t＝σ(W_z·[h_λ,t-1,x_t]+b^z)

其中，x_t是第t个句子的特征表示，σ表示sigmoid激活函数，W_*为权重矩阵，b^*为偏置量，r_t为重置门状态输出，z_t为更新门状态输出，是句子t的候选隐藏状态，h_λ,t为目标语句t的隐藏层状态；得到个人情感依赖关系特征矩阵H_p＝[h_1,1,h_1,2,…,h_1,t-1,…,h_n,t-1]；

S4.2：对于全局对话全局特征的提取，将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息，得到的全局对话特征H_G，正向隐藏状态和反向隐藏状态的具体公式如下：

其中，U_t表示第t条语句，经过双向GRU网络得到对话全局特征

S5：在基于情景注意力机制的多模态情感识别模型中，将目标语句的多模态特征h_λ,t、目标说话人的个人情感依赖关系特征H_p一起组成个人特征向量组，与对话全局特征H_G一起送入到情感特征检测网络中进行计算；所述的基于情景注意力机制的多模态情感识别模型如下：

其中，e(·)为分类评分计算公式，α_t为注意力权重系数，h_c为基于情景注意力机制的多模态情感识别模型的隐藏层状态；权重向量权重矩阵W_c,W_p,偏差向量最终输出隐藏层状态h_c用于情感分类；定义的评分计算公式e(·)根据个人情感依赖关系特征H_p和对话全局特征H_G，迭代遍历对话的隐含状态h_λ,t；利用获得的注意力权重系数α_t，对目标语句的多模态特征h_λ,t进行加权池化，不断地修正目标语句的情感表示h_c；

S6：使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率；使用分类交叉熵损失函数作为训练的代价度量，最终结果输出目标语句的情感分类矩阵，从而能够判断每个句子说话人所处的情感状态；

softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下：

y＝softmax(W^o·h_c+b^o)

其中，y是所有真实的情感标签，W^o是权重矩阵，b^o为偏差项，为预测概率，c为情感类数，N表示样本数量，y_i,j表示第i句话是第j类情感的真实标签，表示第i句话是第j类情感的预测概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011206336.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种智能广告插播切换控制系统
下一篇：一种基于多级滤波抽取和两级WOLA结构的地磁弱信号检测算法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于情景注意力神经网络的多模态情感识别方法有效

专利文献下载