[发明专利]基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备在审
| 申请号: | 202210067242.7 | 申请日: | 2022-01-20 |
| 公开(公告)号: | CN114511906A | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 郭艳霞;唐宏;金勇;彭金枝 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06N3/04;G06K9/62;G10L25/03;G10L25/30;G06V10/80;G06V10/82 |
| 代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 跨模态 动态 卷积 视频 多模态 情感 识别 方法 装置 计算机 设备 | ||
1.一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,包括:
S1:获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;
S2:将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;
S3:采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;
S4:利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;
S5:采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
2.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述获取视频中的各单模态初级特征的步骤包括:
S11:使用WordPiece标记视频中文本序列,送入到ERNIE2.0预训练模型中,得到视频中的初级文本特征Xt;
S12:使用openSMILE提取视频中的低级音频特征,采用DCCN提取音频局部特征,进行拼接得到视频中的初级音频特征Xa;
S13:使用openFACE提取视频中的低级图像特征,采用ResNet-152和胶囊网络进行图像特征提取,进行拼接得到视频中的初级图像特征Xv;
S14:获取视频中μ个片段,将每个视频片段中模态m的单模态初级特征信息采用一个特征向量Xm表示,并将所有的特征向量存放于集合χm中;即
其中,openSMILE表示音频特征提取模型,openFACE表示图像特征提取模型,DCCN(Dilated Convolutional Neural Network)是扩张卷积神经网络,ResNet-152是残差网络,且m∈{t,a,v},t代表文本、a表音频、v表图像,表示集合χm的维度是μ×d维;d表示单模态初级特征的维度。
3.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用DCCN提取音频局部特征包括利用扩张率来降低输入特征图的尺度,其计算公式为:
x′a=xa(n)*wa(n)
其中,x′a表示卷积滤波器的输出;xa(n)是音频信号的输入;wa(n)是卷积滤波器的输入,σ表示激活函数,表示第l层第i个输出特征的偏置表示,是第l层第i个输出特征表示,是第l-1层第j个输出特征表示,是在BN层第i个和第j个特征之间的卷积滤波器。
4.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用ResNet-152和胶囊网络进行图像特征提取包括利用ResNet-152残差网络提取出图像的第一图像特征,将所述第一图像特征输入到胶囊网络中提取出低级图像特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210067242.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水产养殖用水质监控装置
- 下一篇:一种景观设计用的灯光试验演示装置





