[发明专利]基于HMM/SOFMNN混合模型的语音情感识别方法有效
申请号: | 201110202579.6 | 申请日: | 2011-07-19 |
公开(公告)号: | CN102890930A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 高珏;孙柏林;施建刚;孙弘刚;袁健;陈开;佘俊;许华虎;何永义 | 申请(专利权)人: | 上海上大海润信息系统有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/16 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200072 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hmm sofmnn 混合 模型 语音 情感 识别 方法 | ||
1.一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:
1)建立情感语音数据库;
2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;
3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰;
4)利用HMM/SOFMNN混合模型训练与识别。
2.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤1)建立情感语音数据库具体为,首先邀请实验者参加录音,其中包括高兴,伤心,生气,害怕,惊讶五类情感,组成录制情感语音数据库;然后从影视剪辑中选取典型的情感语音片段,其中包括高兴,伤心,生气,害怕和惊讶五类情感语料,组成剪辑情感语音数据库,最终将这两种情感语音数据库综合起来,完成情感语音数据库的建立。
3.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤2)进行语音信号预处理具体为,通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号进行预加重处理,经过去噪以及分帧之后的语音信号为s(n)=0,…,N-1,那么乘上窗长N=23.22ms(256点)的汉明窗后就变成:s′(n)=s(n)*w(n)
w(n)定义如下:
4.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤3)语音情感特征提取具体包括:
A)、时间参数:
提取短时过零率,即一帧语音中语音信号波形穿过横轴的次数;
提取语速,即应用基于频带方差的端点检测算法,检测有声帧与无声帧,以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P=t/T,从而衡量语音信号的语速;
B)、基音频率:包括平均基音频率、基频变化范围和基音频率的平均变化率;
采用窗长23.22ms(256点),窗移10ms的汉明窗,截止频率为900Hz的低通滤波器,采用自相关分析法来对每一帧进行基音周期估计,然后对基频进行中值滤波和线性平滑处理,求出情感语音信号的平滑的基频轨迹曲线,分析不同情感信号基频轨迹的变化情况,找出不同情感的基频构造特征;
C)、能量参数:即短时平均能量;
首先求出语音信号各样本点值的平方,然后样本点通过滤波器输出由短时能量构成的时间序列,采用窗长N=23.22ms(256点)的汉明窗,在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化;
D)、振幅参数:包括短时平均振幅和振幅平均变化率;
首先选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均振幅,对整段语音的各个分帧分别计算平均振幅,便可以得到整段语音的短时平均振幅序列;
E)、共振峰参数:包括共振峰频率的平均值、共振峰频率的平均变化率和前三个共振峰频率;
首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海上大海润信息系统有限公司,未经上海上大海润信息系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110202579.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种罐头食品保水剂
- 下一篇:一种蓝莓浓缩果汁及其制备方法