[发明专利]一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法有效
申请号: | 202110726187.3 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113643723B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 胡章芳;王兰;罗元;夏艳玲 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/03;G06F18/241;G06V40/16;G06N3/044;G06N3/0464;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 cnn bi gru 融合 视觉 信息 语音 情感 识别 方法 | ||
1.一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于,包括以下步骤:
S1、对原始语音信号进行预处理得到三维对数梅尔谱图;
S2、将步骤S1预处理得到的三维对数梅尔谱图用于预训练基于残差网络的三维注意力卷积神经网络,基于残差网络的三维注意力卷积神经网络从三维对数梅尔谱图中提取深层特征;
S3、通过卷积神经网络和具有注意力机制的门控循环单元分别从裁剪的视频图像中提取面部静态外观特征和几何特征;
S4、采用融合模型将语音特征依次与面部特征进行融合得到混合特征,包括:
(1)对于语音和静态外观特征的联合学习,使用深度Bi-GRU进行视听情感特征的高度非线性融合,得到语音外观特征;
(2)对于面部几何特征,根据加权平均值算法,由融合权重将其与语音外观特征进行融合,得到混合特征;
(3)将整合的混合特征利用核线性判别分析进行特征降维,筛选出最具判别性的特征;
S5、在模型训练的过程中,以交叉熵误差函数作为训练目标函数,通过更新参数最小化交叉熵损失,同时通过Adam算法进行优化,得到最终网络模型,最后由softmax层进行情感分类。
2.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S1所述预处理包括预加重、分帧、加窗处理,具体包括以下步骤:
(1)采用如下式所示高通滤波器提升高频部分:
H(Z)=1-μz-1
其H(Z)为Z域的传递函数,μ表示预加重系数,预加重后的输出结果为x(n);
(2)对预加重后的输出x(n)进行分帧,然后采用汉明窗进行加窗:
y(n)表示分帧后的语音信号,w(n,a)表示汉明窗的窗函数,n=0,1,...,N-1,N为帧长,加窗后语音信号为:s(n)=y(n)×w(n,a);
(3)端点检测去除无声片段后,由离散傅里叶变换获得语音信号频域上的能量分布,输出是包含N个频带的复数S(k),S(k)表示原始信号中某一频率的幅度和相位,如下式所示:
(4)将频谱划分为多个Mel滤波器组,通过M个三角滤波器后得到频率响应为Hm(k),再计算每个滤波器组输出的对数能量p(m):
其中,Sa(k)表示第a个频带的幅度和相位;
(5)采用离散余弦变换对每帧数据进行降维,再由差分运算得到对应的一阶差分和二阶差分,将对数频谱及其一阶差分和二阶差分叠加在一起,得到水平长度与信号持续时间相关、垂直长度与滤波器组相关的三维对数梅尔谱图。
3.根据权利要求1所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:步骤S2所述基于残差网络的三维注意力卷积神经网络引入了卷积块、卷积注意力模块和残差神经网络,具体包括:
(1)卷积块由卷积层、组归一化层和线性整流单元组成,用于特征的获取;
(2)注意力模块包括通道和空间方面的两个注意力模块协助三维注意力卷积神经网络在空间和通道方面捕捉精细化特征;
(3)结合使用残差神经网络的跳跃连接技巧,设计了三个残差注意力块来依次学习深层特征。
4.根据权利要求3所述一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法,其特征在于:所述基于残差网络的三维注意力卷积神经网络的具体处理过程如下:将对数梅尔谱图大小调整为224×224×3作为三维注意力卷积神经网络的输入,第一层卷积核大小为3×2×2,步长为1×2×2;最大池化层大小为1×2×2,步长为1×2×2,保留突出部分的显著特征;接下来,每个残差注意力块有两个卷积块作为第一步,再依次连接通道注意力模块与空间注意力模块,对从卷积块中得到的特征进行了空间和通道方面的关注;最后,应用步长为1×2×2的全局平均池化层,对信道的全局特征进行描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110726187.3/1.html,转载请声明来源钻瓜专利网。