[发明专利]基于Transformer的多模态情感分析方法在审
申请号: | 202210442390.2 | 申请日: | 2022-04-25 |
公开(公告)号: | CN114973062A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 王笛;田玉敏;万波;郭栩彤;王泉;王义峰;罗雪梅;潘蓉;赵辉;安玲玲 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 多模态 情感 分析 方法 | ||
1.一种基于Transformer的多模态情感分析方法,其特征在于,包括如下步骤:
(1)获取训练样本集Xtrain、验证样本集Xvalid和测试样本集Xtest;
(1a)选取N个画面中只有一个演讲者进行独白的评论性视频片段V={(t,v,a)n|1≤n≤N},N≥2000,其中(t,v,a)n表示第n个包含文本t、视觉v、音频a三种模态的评论性视频片段;
(1b)利用Bert预训练模型、Vision-Transformer预训练模型以及COVAREP工具包对V中每个评论性视频片段的每种模态分别提取文本、视觉、声学特征序列其中Ts、ds分别表示序列长度和特征维度,s∈(t,v,a),是实数域;
(1c)随机选取V中N1个评论性视频片段所提取的特征序列及其对应的情感标签组成训练样本集Xtrain=(Itrain;Ytrain),将N3个评论性视频片同理得到测试样本集Xtest=(Itest;Ytest),将剩余的N2个评论性视频片段同理得到验证样本集Xvalid=(Ivalid;Yvalid),其中,Itrain表示训练多模态数据特征序列集合,表示第n1个训练多模态数据特征序列,Ytrain表示对应的情感标签集合,表示对应的情感标签,Ivalid表示验证多模态数据特征序列集合,表示第n2个验证多模态数据特征序列,Yvalid表示对应的情感标签集合,表示对应的情感标签,Itest表示测试多模态数据特征序列集合,表示第n3个测试多模态数据特征序列,Ytest表示对应的情感标签集合,表示对应的情感标签,N≥2000,N2=N-N1-N3;
(2)构建基于Transformer的多模态情感分析模型H:
构建包括由主干网络和单模态标签预测模块Huni模块构成的多模态情感分析模型H,主干网络包括顺次连接的上下文信息生成模块Hcon、基于t的多头注意力模块Ht-MH、跨模态Transformer模块HTRM、多模态标签预测模块Hmul,单模态标签预测模块Huni加载在Hcon和HTRM的输出之间,其中Hcon包括面向v和a的两路顺次连接的单向长短期记忆网络、一维时间卷积层、位置编码层,以及面向t的一路顺次连接一维时间卷积层、位置编码层;Ht-MH包括并行排布的三个线性层和与其顺次连接的一个归一化层;HTRM包括D个顺次连接的跨模态Transformer层,D≥4;Hmul包括一个多模态标签分类器;Huni包括三个并行排布的面向t、v、a的单模态标签分类器;
(3)对多模态情感分析模型H进行迭代训练:
(3a)初始化迭代次数为k,最大迭代次数为K,K≥30,各模态的全局表示Ftg、均为0,第k次迭代的多模态情感分析模型为Hk,并令k=1,Hk=H;
(3b)将Xtrain作为多模态情感分析模型Hk的输入,进行前向传播:
上下文信息生成模块为中每种模态的特征序列生成上下文相关信息和位置编码,得到具有上下文信息的文本、视觉、声学特征表示Ft、Fv、Fa;基于t的多头注意力模块通过Ft对Fv和Fa进行基于Ft的多头注意力计算,得到跨模态注意力表示和跨模态Transformer模块利用Ft、两两组合进行跨模态映射,得到每种模态的表示Ft*、拼接后得到多模态表示单模态标签预测模块对Ft、Fv、Fa进行分类得到单模态预测标签多模态标签预测模块对进行分类得到多模态预测标签
(3c)采用平均绝对误差MAE的公式,通过和ym计算模态标签预测模块的损失值Lm,通过和ys加权计算单模态标签预测模块的损失值Lu,得到总损失值Lk=Lm+Lu,并采用反向传播方法,通过损失值Lk计算Hk的权值参数梯度dθk,然后采用随机梯度下降法,通过dθk对Hk的权值参数进行更新,其中ym是多模态训练数据对应的情感标签;
(3d)令单模态标签ys=ym,利用各模态标签与全局表示计算正负类中心和其次利用的输出和中的将L2范式作为距离计算方式计算Fi*到和的距离并利用和计算Fi*到和的相对距离αi,接着利用ym和αi生成单模态标签ys并更新ys,利用更新Ftg、得到第k次训练的模型H′k,其中i∈(m,t,v,a);
(3e)将验证样本集Xvalid作为H′k的输入进行前向传播,得到每个验证集样本的情感预测标签;判断k≥K是否成立,若是,得到训练好的多模态情感分析模型H′,否则,令k=k+1,并执行步骤(3b);
(4)获取多模态情感分析结果;
将测试样本集Xtest作为多模态情感分析模型H′的输入进行前向传播,得到每个测试集样本的情感预测标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210442390.2/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法