[发明专利]一种语音情感识别方法在审
申请号: | 201710013686.1 | 申请日: | 2017-01-09 |
公开(公告)号: | CN106847309A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 徐健成;肖南峰 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/33;G10L15/06;G10L15/16;G10L19/20 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 情感 识别 方法 | ||
技术领域
本发明涉及语音情感识别的技术领域,尤其是指一种基于深度神经网络模型以及特征模糊优化的语音情感识别方法。
背景技术
人类可以通过很多信号表达情感,如心跳频率、语音、人脸、行为动作等。计算机可以通过分析这些信号中的一个或者多个来识别和获取人类的情感状态,其中语音是日常生活中最重要同时也是最便捷的交流方式。随着计算机多媒体信息处理技术领域以及人工智能领域的快速发展,各研究机构越来越关注如何使计算机识别人的语音情感。
语音的情感识别,属于模式识别领域,但是它又稍微有些不同。例如对于普通的图像识别,给出很多小动物,猫、狗、羊等,进行分类识别,对于特定给出的一张动物图像,我们是可以确定它到底是猫还是狗的,这是精确的。但是,对于语音情感识别方面,很多时候给出一段语音,我们并不能明确地指出这段语音蕴含的情感是高兴的还是惊喜的,它也可能是夹杂多种情感的,从这个角度上来看,语音的情感信息是模糊性质的。
语音情感识别,要获得好的识别效果,最重要的是能够提取出显著的情感特征。近年来在提取特征方面,深度神经网络模型发展十分迅猛,并且提取特征的效果非常好,这主要体现在特征的分类准确率高以及无需人为选择提取哪些特征,具有自动化的特性。鉴于深度神经网络模型的上述优点,近年来语音情感识别方面的技术也是偏向于使用深度神经网络模型,例如深度卷积神经网络模型(Deep Convolutional Neural Networks,简称DCCNs),深度循环神经网络模型(Deep Recurrent Neural Networks,简称DRNNs)等,取得的效果也是相当的好。但是,有一点不足的是,仅仅使用这些深度神经网络模型来提取特征然后进行分类识别,并没有充分考虑和利用语音情感信息的模糊特性,而这一性质在语音情感特征方面是相当重要的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度神经网络模型以及特征模糊优化的语音情感识别方法,该方法使用深度神经网络模型进行情感特征提取,并且针对语音情感信息具有模糊性这一特点,使用模糊优化理论对提取的特征进行优化,并且在模糊理论方面,借鉴深度学习的训练模式来自动构造相应的隶属函数,创新地解决模糊理论中隶属函数在选择上主观性强并且难以确定的问题。
为实现上述目的,本发明所提供的技术方案为:一种语音情感识别方法,包括以下步骤:
1)将语音信号转换成语谱图作为原始输入;
2)训练深度卷积神经网络(DCNNs)来自动提取情感特征;
3)针对每一类情感训练一个栈式自编码器(SAE)并融合所有栈式自编码器自动构造出情感模糊集的隶属函数;
4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化;
5)使用Softmax分类器进行情感分类识别。
在步骤1)中,使用快速傅里叶变换获得语音信号的语谱图,语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任意一个给定频率成分在给定时刻的能量强弱用相应点的色调的深浅来表示。之所以要将语音信号转换成语谱图作为输入,是为了充分利用深度卷积神经网络对于图像特征自动提取的强大特性,而不需要像传统方法那样人为地使用滤波器对语音信号进行特征提取。
在步骤2)中,训练深度卷积神经网络来自动提取情感特征,具体如下:
使用步骤1)得到的语谱图作为训练输入样本,训练一个深度卷积神经网络模型,该模型具有两个卷积层,以及两个池化层,框架结构为:输入层(图像)→第一个卷积层→第一个池化层→第二个卷积层→第二个池化层→特征输出层→Softmax全连接层,其中训练该深度卷积神经网络模型,使用的是有监督的训练方式。
数据在卷积层的输入输出过程如下:所有的语谱图构成一个三维的输入数据,记为其中N代表样本数据总数,n1×n2是每一张输入语谱图的大小,第i张输入图像记为xi,卷积层使用的第j个卷积核记为kij,是一个系数矩阵,大小为l1×l2,经过卷积运算后,输出的图像构成的三维数据记为其中,M是输出的特征图的总数,m1×m2是输出特征图的大小,记第j张输出特征图为yj,卷积计算公式如下:其中bj是一个偏置参数,是二维的卷积运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710013686.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种干式荧光免疫分析仪
- 下一篇:一种带样品保鲜功能的自动进样器