[发明专利]基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法在审
申请号: | 202110690885.2 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113420807A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 王庆岩;王吉予;殷楠楠;谢金宝;梁欣涛 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙) 23209 | 代理人: | 荣玲 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 学习 注意力 机制 多模态 融合 情感 识别 系统 方法 实验 评价 | ||
本发明是一种基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法,为解决现有技术中缺乏引入多模态融合机制的多模态情感识别过程效率、准确率低的问题;属于在人机交互领域,相对于单一模态的情感识别工作,多种模态相结合的情感识别应用更加广泛,因此提出一种基于多任务学习与注意力机制相结合的多模态融合情感识别方法。利用多任务学习引入辅助任务使得各模态自身的情感表示可以被更高效地学习到,交互注意力机制可以使得各模态间情感表示相互学习相互补充,进而提升对多模态情感得识别准确率;在多模态数据集CMU‑MOSI和CMU‑MOSEI上进行实验,准确率和F1值均有提升,同时提高了情感信息识别的准确性和效率。
技术领域
本发明是一种多模态融合情感识别系统及方法,尤其涉及基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法,属于在人机交互领域,
背景技术
情感识别是自然语言处理中的一项基本任务,旨在利用计算机对从传感器采集来的信号进行分析和处理,从而得出对方正处在的情感状态。长期以来,对于情感识别任务的研究一直集中在对于文本的研究处理,随着新兴社交媒体的流行,越来越多的人喜欢在平台上通过分享视频表达自己对一些事物或者热点事件的观点和评论,社交媒体的数据形态不再拘泥于单一的文本形式,更多的是包含文本、声音和图片等多种形态的数据,这些包含用户情绪的多模态数据对于研究用户反馈、舆情发现和商品推荐等实际应用具有十分重要的作用,因此面向多模态内容的情感识别越来越受到学术界和工业界的关注。
基于深度学习的多任务学习模型在自然语言处理领域变为主流,它提供了一种方便的方式来组合多个任务的信息,可以在各任务之间共享表征信息,有效地协调并促进多个任务的学习。Xia等人提出了一种基于深度信念网络框架的多任务学习方法,利用Valence 和Arousal信息进行情感识别。以情感类别识别任务为主要任务,将Valence和Arousal 回归/分类作为多任务学习中的次要任务;Xia R,Liu Y基于深度置信网络(DeepBelief Network,DBN)提出了一个多任务学习框架,主任务为情感类别,辅助任务为两种情感属性 activation和valence的离散分类或线性预测,最后通过支持向量机进行分类;KimN K,Lee J等使用卷积神经网络结合多任务学习对说话人情感进行分类,使用三个相关任务辅助情感识别主任务并取得了较单一任务更好的分类效果;有研究者也在不断的研究新的多任务共享方式,去决定多个任务是如何共享的,比如外部记忆共享模型由多个任务共享的外部内存来增强神经模型。
多模态情感识别工作是建立在单模态情感分析的基础上,利用文本、音频及图像等多种模态信息组成的数据对观点、情感状态等进行计算研究,其核心是将文本、图像、音频和视频等多个模态信息有效结合起来从而对情感识别工作进行更好地指导分析,减少分类错误,提高情感分类器的准确性。与单模态情感分析不同的是,多模态情感分析除了需要充分挖掘单个独立模态内部的有用信息,其更重要的任务在于如何整合分析文本、视觉图像以及语音等多种模态的数据。单纯的特征拼接往往没有建立起各模态之间的交互联系,忽略了不同模态之间的语义差异且存在较大的噪声干扰,若一个视频作者在表达对某件事物进行反讽描述时,面部表情往往表现出来是愉悦的而语音以及文字则表现出相反的感情极性,这种情况下图像传达出的正面情感信息就表现为一种噪声干扰,由此可见各模态信息对于最终情感预测的作用并不是均等的,因此建立一个多模态融合机制成为多模态情感识别工作的关键。
发明内容
为解决现有技术中缺乏引入多模态融合机制的多模态情感识别过程效率、准确率低的问题,本发明提出了基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法;本发明的技术方案如下:
方案一:基于多任务学习与注意力机制的多模态融合情感识别系统,该系统包括单模态层、模态融合层和多任务学习层;单模态层负责识别情感信息经预处理后传输至模态融合层;模态融合层通过注意力机制分配信息;最终由多任务学习层将分配的信息进行分类后输出情感分类结果完成识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690885.2/2.html,转载请声明来源钻瓜专利网。