[发明专利]一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法有效
申请号: | 202110726187.3 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113643723B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 胡章芳;王兰;罗元;夏艳玲 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03;G06F18/241;G06V40/16;G06N3/044;G06N3/0464;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 cnn bi gru 融合 视觉 信息 语音 情感 识别 方法 | ||
本发明公开了一种基于注意力CNN Bi‑GRU融合视觉信息的语音情感识别方法,包括步骤:S1,将语音信号经过预处理得到三维对数梅尔谱图;S2,利用三维对数梅尔谱图预训练3DRACNN语音网络提高泛化能力;S3,通过CNN和AGRUs分别提取面部静态外观特征和几何特征;S4,为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征,并由KLDA过滤无关特征;S5,在模型训练的过程中通过更新参数最小化损失,同时通过算法进行优化,最后由softmax层进行情感分类。本发明能够有效解决情感识别模型识别率低以及泛化能力弱的问题,提高识别准确率和鲁棒性。
技术领域
本发明属于语音信号处理与模式识别领域,特别是一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法。
背景技术
情感识别属于计算科学、心理科学和认知科学等专业的交叉领域,其通过研究人与人交流过程中的情感表达特点,设计出具有相关反馈的人机交互环境,使计算机具备识别并理解人类情感信息的能力,是人机交互领域的一项重要研究课题。
在人际交往过程中,声音和面部表情是最自然而又直接的情感表达方式。在基于语音的情感识别领域,3DCNN、K-means聚类、深步卷积神经网络(DSCNN)和特征融合算法被广泛应用于特征提取和学习,使相关研究工作取得了一定的研究成果,但仍存在说话环境嘈杂和情感无关因素较多导致情感识别准确率低等问题。在基于面部表情的情感识别领域,通常使用空间注意力CNN(SACNN)、基于注意力的长短时记忆网络(ALSTMs)、VGG-19等进行面部情感识别,但光照变化和面部遮挡等干扰因素容易造成人脸检测的失败,进而影响面部表情的判别。
随着情感识别相关技术的不断成熟,人们对情感识别准确率等系统性能的要求越来越高,而单模态情感识别具有一定的局限性。运用多模态融合的方法能够弥补单个模态的缺点从而更有效地识别说话人的情感状态,因此多模态融合的识别方法目前逐渐成为了研究热点,其中大量研究工作普遍涉及语音和视觉信息。Subhasmita等使用隐马尔可夫模型和支持向量机分别对语音和图像进行分类,通过决策层融合后用于情感识别。Xu等采用OpenSMILE工具包提取语音特征,同时采集面部图像的几何特征和梯度方向直方图(HOG)特征。Cornejo等设计了一种混合CNN,从视频中提取音频和面部特征进行并联,经特征选择技术筛选后进行情感识别。Pei等描述了一种模型级融合方法,使用自适应权重网络将辅助信息加入到多模态情感识别模型中。Adiga等根据人脸和语音不同模态特征进行对比实验来获得识别率更高的结果。
本发明针对情感识别模型泛化能力差和语音特征识别率低的问题进行了改进。首先,通过预训练RACNN语音网络,减小过拟合发生的可能,提高模型泛化能力;然后,通过融合丰富的面部特征来改善语音特征识别率低的情况;最后,由KLDA进行特征选择过滤无关特征后进行情感识别,降低情感无关因素的影响,提高情感识别准确率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高情感识别模型泛化能力且可获得较高识别率的基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法。
为了实现上述目的,本发明采用的技术方案如下:
一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于,包以下步骤:
S1、对原始语音信号进行预处理得到三维对数梅尔谱图;包括预加重、分帧、加窗等预处理。
S2、将步骤S1预处理得到的三维对数梅尔谱图用于预训练基于残差网络的三维注意力卷积神经网络(3DRACNN),基于残差网络的三维注意力卷积神经网络从三维对数梅尔谱图中提取深层特征,以提高模型泛化能力。
S3、通过卷积神经网络(CNN)和具有注意力机制的门控循环单元(AGRUs)分别从裁剪的视频图像中提取面部静态外观特征和几何特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726187.3/2.html,转载请声明来源钻瓜专利网。