[发明专利]一种基于情景注意力神经网络的多模态情感识别方法有效

专利信息
申请号: 202011206336.5 申请日: 2020-11-02
公开(公告)号: CN112348075B 公开(公告)日: 2022-09-20
发明(设计)人: 王塔娜;候亚庆;张强;周东生;王鹏飞 申请(专利权)人: 大连理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉;温福雪
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 情景 注意力 神经网络 多模态 情感 识别 方法
【权利要求书】:

1.一种基于情景注意力神经网络的多模态情感识别方法,其特征在于,具体步骤如下:

S1:将视频中的对话部分划分为t条的语句U=[u1,u2,…,ut],选取对话中所有说话人的多模态数据,多模态数据包括语音、文本和图像数据;

S2:针对步骤S1划分好的每条语句,在多模态数据中的各个单模态上分别进行特征提取,得到每条语句上的各模态的高维特征向量,即语音特征向量、文本特征向量、图像特征向量,具体特征提取方法如下:

语音特征提取:首先,对视频中所含的语音文件进行分割处理,形成.wav序列文件;为了识别有语音和无语音样本,采用z标准化技术进行语音归一化;使用openSMILE工具箱提取语音特征,包括响度、频率、Mel倒谱系数、过零率等以及其统计量,统计量包括均值、平方根、二次均值,计算得到第i条语句的语音特征

文本特征提取:使用CNN进行文本特征提取,将要提取特征的文本输入到神经网络中,全连接层的输出作为第i条语句的文本模态特征

图像特征提取:使用3D-CNN进行视频中图像特征提取,将要提取特征的视频输入到神经网络中,计算得到第i条语句的图像特征

S3:将步骤S2中提取到的三类单模态特征进行融合;引入基于注意力机制的融合网络,将音频、文本和图像模态作为输入,并为每个模态输出一个注意分数,进而保留各模态中的重要信息;将步骤S2中获得的各模态特征,进行特征融合并得到融合后的特征F;

设X=[Xa,Xt,Xv]为尺寸为d的维度均衡后的特征集,其中Xa为声学特征,Xt文本特征,Xv为视觉特征,且注意力权重系数αfuse和融合之后的多模态特征向量F的计算如下:

PF=tanh(WF·X)

其中,PF是X的隐藏单元状态,权重矩阵注意力权重系数

S4:提取说话人的个人情感依赖关系和全局对话情景特征;

S4.1:对于说话人的个人情感依赖关系特征的提取,为每位说话人都设置门控循环单元其中λ∈{1,2,…,n},用于捕捉说话人λ对历史情感状态的依赖关系,并将步骤S3中融合后的多模态特征向量F送入门控循环单元,并输出目标说话人λ的待检测目标语句t的多模态特征hλ,t和个人情感依赖关系特征矩阵Hp

对于说话人λ的某一语句t的历史情感状态更新公式如下:

rt=σ(Wr·[hλ,t-1,xt]+br)

zt=σ(Wz·[hλ,t-1,xt]+bz)

其中,xt是第t个句子的特征表示,σ表示sigmoid激活函数,W*为权重矩阵,b*为偏置量,rt为重置门状态输出,zt为更新门状态输出,是句子t的候选隐藏状态,hλ,t为目标语句t的隐藏层状态;得到个人情感依赖关系特征矩阵Hp=[h1,1,h1,2,…,h1,t-1,…,hn,t-1];

S4.2:对于全局对话全局特征的提取,将视频中T条语句序列逐次输入到双向GRU网络中提取全局对话的特征信息,得到的全局对话特征HG,正向隐藏状态和反向隐藏状态的具体公式如下:

其中,Ut表示第t条语句,经过双向GRU网络得到对话全局特征

S5:在基于情景注意力机制的多模态情感识别模型中,将目标语句的多模态特征hλ,t、目标说话人的个人情感依赖关系特征Hp一起组成个人特征向量组,与对话全局特征HG一起送入到情感特征检测网络中进行计算;所述的基于情景注意力机制的多模态情感识别模型如下:

其中,e(·)为分类评分计算公式,αt为注意力权重系数,hc为基于情景注意力机制的多模态情感识别模型的隐藏层状态;权重向量权重矩阵Wc,Wp,偏差向量最终输出隐藏层状态hc用于情感分类;定义的评分计算公式e(·)根据个人情感依赖关系特征Hp和对话全局特征HG,迭代遍历对话的隐含状态hλ,t;利用获得的注意力权重系数αt,对目标语句的多模态特征hλ,t进行加权池化,不断地修正目标语句的情感表示hc

S6:使用softmax分类器对目标语句进行情感分类并得到各类情感的识别率;使用分类交叉熵损失函数作为训练的代价度量,最终结果输出目标语句的情感分类矩阵,从而能够判断每个句子说话人所处的情感状态;

softmax分类器的分类计算以及训练过程中的损失函数Loss计算表达式如下:

y=softmax(Wo·hc+bo)

其中,y是所有真实的情感标签,Wo是权重矩阵,bo为偏差项,为预测概率,c为情感类数,N表示样本数量,yi,j表示第i句话是第j类情感的真实标签,表示第i句话是第j类情感的预测概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011206336.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top