[发明专利]一种实时语音情感识别方法及装置有效
申请号: | 202110987593.5 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113611326B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 刘振焘;韩梦婷;曹卫华;黄海;彭志昆 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G10L25/15 | 分类号: | G10L25/15;G10L25/24;G10L25/30;G10L25/63 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 万文广 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 语音 情感 识别 方法 装置 | ||
1.一种实时语音情感识别方法,其特征在于,包括以下步骤:
对原始语音信号进行预处理后,提取梅尔频谱;
从所述梅尔频谱中提取每个采样帧的共振峰;
通过比较每个采样帧的共振峰中的局部幅值的极大值,获取每个采样帧内振幅值前三的共振峰,作为第一主要共振峰;
根据实时噪声门的沉默阈值对各所述第一主要共振峰进行去噪处理,得到去噪后的共振峰;
计算所述去噪后的共振峰中,任意两帧的任意两个共振峰之间的匹配指标,根据所述匹配指标重建得到原始帧长的共振峰;
获取重建后的共振峰振幅的最大值和最小值;
获取重建后的共振峰中每个采样帧内振幅值前三的共振峰,作为第二主要共振峰;
计算所述第二主要共振峰的复合能量;
将所述重建后的共振峰振幅的最大值和最小值作为明显的沉默停顿音节分割标准,并根据所述复合能量的变化进行语音分割,得到多个音节;
统计各所述音节内的特征;
根据各所述音节内的特征,通过多层感知器获得每个音节的情感类别概率;
通过对每个所述音节的情感类别概率进行语句级置信聚合,得到语句级情感识别结果。
2.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述预处理步骤具体包括:
对原始语音信号进行预加重,得到预加重后的信号;
对所述预加重后的信号进行分帧加窗及傅里叶变换处理,得到变换后的信号;
将所述变换后的信号通过梅尔滤波器组处理,得到每个采样帧的梅尔频率;
将多个相邻采样帧的梅尔滤波器组进行连接,得到语音信号的梅尔频谱。
3.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述通过比较每个采样帧的共振峰中的局部幅值的极大值,获取每个采样帧内振幅值前三的共振峰,作为第一主要共振峰的步骤中,所述第一主要共振峰的相关参数计算公式如下:
第h个最高振幅共振峰的功率幅值的计算公式为:
第h个最高振幅共振峰的梅尔刻度频率的计算公式为:
共振峰h的带宽的计算公式为:
式中,ph为第h个最高振幅共振峰的功率幅值,ph-1为第h-1个最高振幅共振峰的功率功率幅值,p(l)为梅尔滤波器组l的幅值,fh为第h个最高振幅共振峰的梅尔刻度频率,wh为共振峰h的带宽。
4.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述实时噪声门的沉默阈值的计算公式为:
式中,Amin是实时噪声门的沉默阈值,Aimp是梅尔频谱中最高峰值振幅衰减值,该衰减值不断根据当前传入帧中高于当前衰减值的新峰值进行更新。
5.如权利要求1所述的一种实时语音情感识别方法,其特征在于,计算任意两帧ta,tb的任意两个共振峰ha,hb之间的匹配指标的具体计算公式为:
式中,Ia,b表示匹配指标,tb-ta表示两帧之间的时间差,fb-fa表示两帧之间的频率差,表示为两帧中最小功率幅值与最大功率幅值的比值,La表示已经与其它共振峰相连接的共振峰数量,Kt与Kf为曼哈顿距离常数,取决于相邻共振峰的水平和垂直单位距离。
6.如权利要求1所述的一种实时语音情感识别方法,其特征在于,所述计算第二主要共振峰的复合能量,具体计算公式为:
式中,ec(t)为时间坐标t处的复合能量,eh(t)为第h个共振峰的能量,fh(t)为第h个共振峰的频率,HE是一个强调常数,用于提高高频共振峰的能量权重,所述复合能量用于判别讲话时的沉默停顿。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110987593.5/1.html,转载请声明来源钻瓜专利网。