[发明专利]一种基于MIT和FSM的多模态情感分析方法有效

申请号：	202111128257.1	申请日：	2021-09-26
公开（公告）号：	CN113806609B	公开（公告）日：	2022-07-12
发明（设计）人：	李祖贺;郭青冰;王艳军;马江涛;王凤琴;张秋闻;黄伟;钱晓亮;张焕龙	申请（专利权）人：	郑州轻工业大学
主分类号：	G06F16/906	分类号：	G06F16/906;G06K9/62;G06N3/04;G06N3/08;G06F16/33;G06F16/35;G06F16/65;G06F16/68;G06F16/75;G06F16/783
代理公司：	郑州优盾知识产权代理有限公司 41125	代理人：	张真真
地址：	450000 河南省郑州***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mit fsm 多模态情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于MIT和FSM的多模态情感分析方法，其特征在于，其步骤如下：

步骤一：分别对文本模态数据、语音模态数据和视频模态数据进行预处理，提取文本特征向量、语音特征向量和视频特征向量；

步骤二：从文本特征向量、语音特征向量和视频特征向量对应的模态中选择一个模态作为主要模态，其余两个模态作为辅助模态进行组合，得到三个组合，并将三个组合分别输入Multimodal Interactive Transformer中进行辅助学习，分别得到三个学习后的特征矩阵；

辅助学习的方法为：

A.文本特征向量对应的模态为主要模态x，语音特征向量和视频特征向量对应的模态为辅助模态y和z；

S2.1、将主要模态x的Key向量和Value向量记为K_x与V_x，将辅助模态y和z的Query向量分别记为Q_y与Q_z；

S2.2、计算K_x与Q_y的标准内积来获取主要模态x与辅助模态y的相似度权重，并对主要模态x与辅助模态y的相似度权重使用Softmax函数进行归一化，再利用归一化后的相似度权重对V_x进行加权求和；具体计算公式为：

其中，d表示特征向量的维度；

S2.3、计算每一次操作后的head：

head_i'＝Guided-Attention(Q_yW_i'^Q,K_xW_i'^k,V_xW_i'^V)；

其中，head_i'表示第i'个head的计算结果，W_i'^Q表示第i'个head计算时Q_y的权重，W_i'^k表示第i'个head计算时K_x的权重，W_i'^V表示第i'个head计算时V_x的权重，i'＝1,2,…,h，h为步骤S2.2的操作次数；

S2.4、将h次的结果进行拼接和线性变化即可得到主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果，表达式为：

MHGA(Q_y,K_x,V_x)＝Concat(head₁,...,head_h)W^O；

其中，Concat(·)为拼接操作，W^O表示给拼接后的值赋予的权重；

S2.5、将K_x、V_x和Q_z按照步骤S2.2至S2.4的操作方法，获得主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果；

S2.6、将主要模态x与辅助模态y经过Multi-Head Guided-Attention后的结果记为张量t₁，将主要模态x与辅助模态z经过Multi-Head Guided-Attention后的结果记为张量t₂；

S2.7、使用笛卡尔积的跟随向量场定义二维张量融合网络，表示为：

其中，坐标(t₁，t₂)是由两个张量嵌入维度[t₁ 1]^T和[t₂ 1]^T定义的笛卡尔平面中的一个点，利用如下公式计算两个张量的融合结果：

其中，t表示融合后的张量；

S2.8、将融合后的张量t输入由全连接层和非线性激活函数组成的前向传播层进行一次残差变化和归一化变换，得到文本特征向量对应的学习后的特征矩阵F_text：

F_text＝LayerNorm(t+Sublayer(t))；

其中，LayerNorm(·)为归一化变换函数，Sublayer(·)为残差变化函数；

B.语音特征向量对应的模态为主要模态x，文本特征向量和视频特征向量对应的模态为辅助模态y和z；按照步骤S2.1至S2.8的操作方式执行，得到语音特征向量对应的学习后的特征矩阵F_audio；

C.视频特征向量对应的模态为主要模态x，文本特征向量和语音特征向量对应的模态为辅助模态y和z；按照步骤S2.1至S2.8的操作方式执行，得到视频特征向量对应的学习后的特征矩阵F_video；

步骤三：将三个学习后的特征矩阵输入FeatureSoft Mapping中映射到统一的语义空间中进行融合，得到融合特征；融合方法为：

S3.1、分别对特征矩阵F_text、F_audio、F_video进行尺寸变换，得到三个新的特征矩阵，分别为M₁、M₂、M₃，其中，M₁、M₂、M₃的维度大小均为2k×k；

S3.2、利用大小为1×2k的向量v_q分别与每个新的特征矩阵M_q相乘后再利用Softmax函数进行归一化处理，得到大小为1×k的向量a_q：

a_q＝softmax(v_qM_q)；

其中，q∈{1,2,3}；

S3.3、将所有向量a_q进行加权求和，并将求和结果进行整合，得到大小为k的向量m：

其中，w_q为权重；

S3.4、m为视频序列上单个节点上的计算结果，将整个视频序列的所有节点的结果进行堆叠得到融合特征：

其中，s为融合特征，m_j'为第j'个节点的向量，j'＝0,1,…,N，N为视频的节点数，Stacking(·)为拼接操作；

步骤四：将融合特征输入分类层，获取情感预测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学，未经郑州轻工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111128257.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载