[发明专利]基于HMM/SOFMNN混合模型的语音情感识别方法有效

申请号：	201110202579.6	申请日：	2011-07-19
公开（公告）号：	CN102890930A	公开（公告）日：	2013-01-23
发明（设计）人：	高珏;孙柏林;施建刚;孙弘刚;袁健;陈开;佘俊;许华虎;何永义	申请（专利权）人：	上海上大海润信息系统有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/16
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	赵继明
地址：	200072 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 hmm sofmnn 混合模型语音情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种语音情感识别方法，尤其是涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法。

背景技术

人的语音信号中包含着丰富的情感信息，通过对语音信号的分析来识别人的情感是当前一个十分活跃的研究课题。语音情感识别就是从语音信号中识别出说话人的情感信息，比如“喜、怒、哀、乐”等。语音情感识别在自然人机交互、安全系统自动监管等方面有着广泛的应用前景。

语音情感识别是一个模式识别问题，大部分模式识别和分类方法都被尝试用于语音中情感的自动识别。隐马尔可夫模型(HMM)作为语音信号的一种较为理想的统计模型，已经在语音处理领域获得了广泛的应用，并逐渐被应用到语音情感识别领域。隐马尔可夫过程是一种双重随机过程，人的言语过程实际上就是这样一种双重随机过程。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

但HMM方法有需要语音信号的先验统计知识，分类决策能力较弱等缺点，由于仅考虑了特征的类内变化，而忽略了类间重叠性，仅根据各累积概率的最大值作类别判断，而忽略了各个模式之间的相似特性，因而影响了系统的识别性能，其自适应能力、鲁棒性都不理想。

因此要进一步提高语音情感识别率，就要对HMM模型进行改进。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种克服了HMM本身难以解决的模式类别间的相互重叠问题，而且弥补了SOFMNN(自组织特征映射神经网络)在获取时序信息方面的不足，提高了语音情感识别率的基于HMM/SOFMNN混合模型的语音情感识别方法。

本发明的目的可以通过以下技术方案来实现：一种基于HMM/SOFMNN混合模型的语音情感识别方法，其特征在于，该方法将HMM和SOFMNN模型相结合对语音情感进行识别，其具体包括以下步骤：

1)建立情感语音数据库；

2)进行语音信号预处理：包括预加重处理、去噪和分帧加窗；

3)语音情感特征提取：包括提取语音信号的时间、能量、振幅、基频和共振峰；

4)利用HMM/SOFMNN混合模型训练与识别。

所述的步骤1)建立情感语音数据库具体为，首先邀请实验者参加录音，其中包括高兴，伤心，生气，害怕，惊讶五类情感，组成录制情感语音数据库；然后从影视剪辑中选取典型的情感语音片段，其中包括高兴，伤心，生气，害怕和惊讶五类情感语料，组成剪辑情感语音数据库，最终将这两种情感语音数据库综合起来，完成情感语音数据库的建立。

所述的步骤2)进行语音信号预处理具体为，通过具有6db/oct梯度的高频增强型滤波器，利用Z变换，用一阶数字滤波器来对语音信号进行预加重处理，经过去噪以及分帧之后的语音信号为s(n)＝0，…，N-1，那么乘上窗长N＝23.22ms(256点)的汉明窗后就变成：s′(n)＝s(n)*w(n)

w(n)定义如下：w(n)=0.54-0.46*cos(2πnN-1),0≤n<N0,else.]]>