[发明专利]一种使用谱图和深卷积神经网络进行语音情感识别的方法在审
| 申请号: | 201710724721.0 | 申请日: | 2017-08-22 |
| 公开(公告)号: | CN107705806A | 公开(公告)日: | 2018-02-16 |
| 发明(设计)人: | 袁家政;刘宏哲;龚灵杰 | 申请(专利权)人: | 北京联合大学 |
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30 |
| 代理公司: | 北京驰纳智财知识产权代理事务所(普通合伙)11367 | 代理人: | 谢亮 |
| 地址: | 100101 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 卷积 神经网络 进行 语音 情感 识别 方法 | ||
技术领域
本发明涉及语音信号处理和模式识别的技术领域,特别是一种使用谱图和深卷积神经网络进行语音情感识别的方法。
背景技术
随着信息技术的不断发展,社会发展对情感计算提出了更高的要求。例如在人机交互方面,一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并能有效减轻人们使用电脑的挫败感,甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等,并做出相应反应。此外,情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况,情感计算的应用可以有效地帮助人们避免不良情绪,保持乐观健康的心理。现有技术分类不够准确。直接对声音进行提取特征会受声音中的噪音影响较大。
公开号为CN106782602A的专利文件公开了一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法,该方法构建基于LSTM和CNN的语音情感识别系统,将语音序列作为系统的输入,采用反向传播算法对LSTM和CNN进行训练,优化网络的参数,得到优化后的网络模型;利用已经训练好的网络模型对新输入的语音序列进行情感分类,分为悲伤、高兴、延误、恐惧、惊吓、中性六种情感。该方法将语音序列作为系统输入。而语音序列是1维的。CNN在自动提取特征的过程中并不能很好的发挥作用。也就是说,此方法提取的特征并不太准确。
公开号为CN106847309A的专利文件公开了一种语音情感识别方法,包括步骤:1)将语音信号转换成语谱图作为原始输入;2)训练深度卷积神经网络来提取情感特征;3)针对每一类情感训练一个栈式自编码器自动构造出情感模糊集的隶属函数;4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化;5)使用softmax分类器进行情感分类识别。该方法是两个卷积层和一个softmax全连接层。图像特征提取相对于3个卷积层来说不够细。全连接层能够保留特征间的内在联系,但是也不能过多,容易导致过拟合。本申请最大限度的保证了特征提取的准确性和有效性
发明内容
为了解决上述的技术问题,本发明提出了一种使用谱图和深卷积神经网络进行语音情感识别的方法,将语音信号转化为频谱图,输入到深卷积神经网络模型中,经过对深卷积神经网络模型进行训练和测试,能够有效的提高识别能力。
本发明提供一种使用谱图和深卷积神经网络进行语音情感识别的方法,包括以下步骤:
步骤1:根据语音信号生成频谱图;
步骤2:构建深卷积神经网络模型;
步骤3:用大量的频谱图作为输入,训练并优化所述深卷积神经网络模型;
步骤4:对训练好的所述深卷积神经网络模型进行测试并优化。
在上述任一方案中优选的是,所述频谱图是语音信号的特定波形的频率随时间变化的视觉表现。
在上述任一方案中优选的是,所述频谱图是一个二位图形,横坐标表示时间,纵坐标表示频率。
在上述任一方案中优选的是,所述频谱图是指对所述语音信号加入FFT转换计算得到时间和频率的关系。
在上述任一方案中优选的是,为了观察所述语音信号某一时刻的频率,将所述语音信号分成多个块,每一块都进行FFT转换。
在上述任一方案中优选的是,非周期性连续时间信号X(t)的傅里叶变化定义为:计算出来的是信号X(t)的连续频谱,在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。
在上述任一方案中优选的是,利用离散信号X(nT)来计算信号X(t)的频谱,有限长离散信号X(n),n=0,1,...,N-1的DFT定义k=0,1,...,N-1,其中,N为采样点个数,j表负数的虚部。
在上述任一方案中优选的是,所述深卷积神经网络模型由三个卷积层,三个全连接层和一个softamx层组成。
在上述任一方案中优选的是,所述步骤1还包括把得到的N*N像素的所述频谱图作为卷积神经网络的输入。
在上述任一方案中优选的是,初始的所述卷积层中用卷积函数从频谱图中提取特征。
在上述任一方案中优选的是,三个所述卷积层分别命名为C1层、C2层和C3层。
在上述任一方案中优选的是,所述C1层有A1(A1+1)个核,步长为B1。
在上述任一方案中优选的是,在所述C1层之后是ReLU激活函数和一个D1*D1大小、步长为B2的池化层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710724721.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低功耗待机休眠电路
- 下一篇:一种基于身份证件的访客管理系统及方法





