[发明专利]一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法在审
| 申请号: | 201910901182.2 | 申请日: | 2019-09-23 |
| 公开(公告)号: | CN110534132A | 公开(公告)日: | 2019-12-03 |
| 发明(设计)人: | 姜芃旭;雷沛之;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/30;G10L25/63 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 高级特征 语音情感 并行卷积 三维特征 帧级 卷积神经网络 循环神经网络 归一化处理 记忆网络 连接结构 分类器 神经网 二阶 一阶 逐帧 并行 语音 分类 融合 | ||
本发明公布了一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法。包括以下步骤:首先,从每条语音中提取帧级特征,并利用长短期记忆网络逐帧进行高级特征提取。同时,计算帧级特征的一阶差分以及二阶差分,并将其组合成三维特征,通过卷积神经网络来对这些三维特征进行高级特征提取。然后将两个高级特征融合并进行批归一化处理。最后,使用SoftMax分类器对情感进行分类。本发明的基于谱图特征的并行卷积循环神经网的语音情感识别方法,模块内部采用并行的连接结构来同时处理谱图特征,能够有效的提升语音情感识别的性能。
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法。
背景技术
语言包含丰富的情感信息。人们可以从语言中捕捉到情感状态的变化,因为我们可以从语言信号中感知到反映情感状态的信息。语音情感识别是利用机器挖掘语音中的信息,模拟人们对情感的感知过程。近几十年来,语音情感识别已引起世界各国相关研究人员的关注,并在许多相关领域取得了巨大的成就。随着人工智能的发展,人与计算机的交互变得更加舒适和方便,如何更好地利用人工智能识别语音情感已成为下一代人工智能发展的重点。因此,语音情感识别的研究具有很强的理论价值和现实意义。
特征提取是语音信号处理的第一步,也是最重要的一步。到目前为止,语音情感识别已经使用了各种手工设计的功能。谱图特征是近年来逐渐形成的一类新的特征。与传统的手工设计特征相比,谱图特征可以通过考虑频率轴和时间轴来提取更多的情感信息。然而,这些特征是依然是低级的;这些特征仍然不能很好地表达话语中包含的情感。因此,如何从每个话语中提取更多的情感细节是我们需要解决的第一个问题。近年来,神经网络在特征学习方面表现突出,为我们解决这一问题提供了可能。深度学习提出了一种机器自动学习特征的方法,它可以从大量的学习任务中自动提取特定的特征,并将特征学习融入到建模过程中。与手工设计特征相比,深度学习特征减少了人工设计特征导致的不完全性。为此,许多学者进行了大量的相关研究。但在语音情感识别中,仍有一些需要解决的问题。首先,语音信号可能有不同的持续时间,而大多数的深度学习模型都需要固定的输入大小。其次,单个的神经网络模型识别情感的能力有限。许多研究将不同的网络模型串联起来进行情感识别。这种结构的一个优点是,可以更容易地设计适合于段级特征的模型。然而,由于模型之间的前后继承关系,在模型对特征加工的过程中可能会丢失一些情感信息。
发明内容:
为了克服现有语音情感识别技术存在的一些问题,本发明公布了一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法。包括以下步骤:首先,从每条语音中提取帧级特征,并利用长短期记忆网络逐帧进行高级特征提取。同时,计算帧级特征的一阶差分以及二阶差分,并将其组合成三维特征,通过卷积神经网络来对这些三维特征进行高级特征提取。然后将两个高级特征融合并进行批归一化处理。最后,使用SoftMax分类器对情感进行分类。本发明的基于谱图特征的并行卷积循环神经网的语音情感识别方法,模块内部采用并行的连接结构来同时处理谱图特征,能够有效的提升语音情感识别的性能。我们方法的具体流程如下:
1.对原始语音数据预处理,为了提高模型的收敛速度,首先对原始语音波形进行归一化处理。
2.提取语音中的帧级特征,包括以下步骤,
将步骤1中预处理过后的语音进行预加重,将语音信号通过一个高通滤波器:
H(Z)=1-μz-1
预加重的目的是提升高频部分,使信号的频谱变得平坦;
然后对信号进行分帧,将N个采样点集合成一帧,并且为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,我们将帧长设置为400,帧移设置为160;
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910901182.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频播放方法及系统
- 下一篇:一种语音情感识别系统及语音情感识别方法





