[发明专利]一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法在审
| 申请号: | 201910901182.2 | 申请日: | 2019-09-23 |
| 公开(公告)号: | CN110534132A | 公开(公告)日: | 2019-12-03 |
| 发明(设计)人: | 姜芃旭;雷沛之;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/30;G10L25/63 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 高级特征 语音情感 并行卷积 三维特征 帧级 卷积神经网络 循环神经网络 归一化处理 记忆网络 连接结构 分类器 神经网 二阶 一阶 逐帧 并行 语音 分类 融合 | ||
1.本发明公布了一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法,其特征在于:包括以下步骤,
步骤(A)对原始语音数据预处理;
步骤(B)提取语音中的帧级特征;
步骤(C)利用并行卷积循环神经网络(PCRN)来提取高级特征并进行特征融合;
步骤(D)对融合特征进行批归一化(BN)处理;
步骤(E)利用softmax分类器对情感进行分类。
2.根据权利要求1所述的一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法,其特征在于:步骤(A),对原始语音数据预处理,为了提高模型的收敛速度,首先对原始语音波形进行归一化处理。
3.根据权利要求1所述的一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法,其特征在于:步骤(B),提取语音中的帧级特征,包括以下步骤,
将步骤(A)中预处理过后的语音进行预加重,将语音信号通过一个高通滤波器:
H(Z)=1-μz-1
预加重的目的是提升高频部分,使信号的频谱变得平坦;
然后对信号进行分帧,将N个采样点集合成一帧,并且为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,我们将帧长设置为400,帧移设置为160;
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后:
S′(n)=S(n)×W(n)
W(n)为汉明窗:
对加窗后的数据进行快速傅立叶变换,将时域中的信号转化为频域中进行观察,在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,设语音信号的DFT为:
x(n)为输入的语音信号;
然后将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,M取64,Mel滤波器的主要作用是对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰,将原始语音信号进行一系列操作后得到的帧级特征作为下一步模型输入的特征之一,然后求出每段帧级特征的一阶差分和二阶差分,组成三维特征作为PCRN模型的另一个输入,差分参数的计算公式为:
dt表示第t个一阶差分,由于模型的需要,我们还需要将每个三维帧级特征的大小利用双线性差值的算法从F*M变为227*227,其中F为每段语音的帧数,每段语音的帧数可能都不相同,M为Mel滤波器的个数,我们设置为64,如果数据集的大小为B,那么帧级特征的大小为B*F*M,三维帧级特征的大小为B*227*227*3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901182.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频播放方法及系统
- 下一篇:一种语音情感识别系统及语音情感识别方法





