[发明专利]语音情绪识别方法和装置有效
申请号: | 201711360276.0 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108122552B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 余世经;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司;南京小爱智臻网络科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/63;G10L15/04;G10L15/06;G10L15/08;G10L25/15;G10L25/24 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 孟潭 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 情绪 识别 方法 装置 | ||
1.一种语音情绪识别方法,其特征在于,包括:
提取待识别音频流中的语音片段的音频特征向量,其中所述语音片段对应所述待识别音频流中的一段话,所述待识别音频流为用户客服交互音频流;
将所述语音片段的音频特征向量与多个情绪特征模型进行匹配,其中所述多个情绪特征模型分别对应多个情绪分类之一;
将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类;以及
将所述情绪分类实时显示;
其中,所述音频特征向量包括以下几种音频特征中的一种或多种:能量特征、发音帧数特征、基音频率特征、共振峰特征、谐波噪声比特征以及梅尔倒谱系数特征;
其中,在提取待识别音频流中的语音片段的音频特征向量之前,进一步包括:
确定所述待识别音频流中的语音开始帧以及语音结束帧,其中,所述语音开始帧以及所述语音结束帧基于所述待识别音频流中预设数量个语音帧的判决参数和功率谱均值确定,第k帧的判决参数Γ(k)以及功率谱均值ρ(k)计算公式分别为其中,N为帧长,η为似然比参数,η的计算公式为P(k,j)=|FFT(x(k))|2,j=0,1,...,N-1,其中,γ为后验信噪比,ξ为先验信噪比,计算公式分别为ξ(k,j)=αξ(k-1,j)+(1-α)max(γ(k,j)-1,0),其中,λ为背景噪声功率谱,j为频率点的编号,x(k)为第k帧信号,min()和max()分别为取最小函数和取最大函数;以及
提取所述语音开始帧与所述语音结束帧之间的音频流部分作为所述语音片段。
2.根据权利要求1所述的语音情绪识别方法,其特征在于,所述语音片段对应所述待识别音频流中的一次用户输入语音段或一次客服输入语音段。
3.根据权利要求2所述的语音情绪识别方法,其特征在于,所述语音片段对应所述待识别音频流中的一次客服输入语音段,所述多个情绪分类包括:满意分类、平静分类以及烦躁分类;或,
所述语音片段对应所述待识别音频流中的一次用户输入语音段,所述多个情绪分类包括:满意分类、平静分类、烦躁分类以及生气分类。
4.根据权利要求1所述的语音情绪识别方法,其特征在于,所述待识别音频流为用户客服交互音频流,所述多个情绪分类包括:
满意分类、平静分类、以及烦躁分类;或
满意分类、平静分类、烦躁分类以及生气分类。
5.根据权利要求1所述的语音情绪识别方法,其特征在于,所述多个情绪特征模型通过对包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行预学习而建立。
6.根据权利要求5所述的语音情绪识别方法,其特征在于,所述预学习过程包括:
将包括所述多个情绪分类对应的情绪分类标签的多个预设语音片段各自的音频特征向量进行聚类处理,得到预设情绪分类的聚类结果;以及
根据所述聚类结果,将每个聚类中的所述预设语音片段的音频特征向量训练为一个所述情绪特征模型。
7.根据权利要求1所述的语音情绪识别方法,其特征在于,当所述情绪特征模型为混合高斯模型时,则所述将所述语音片段的音频特征向量与多个情绪特征模型进行匹配包括:
计算所述语音片段的音频特征向量分别与所述多个情绪特征模型之间的似然概率;
其中,所述将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类包括:
将似然概率大于预设阈值且最大的所述情绪特征模型所对应的情绪分类作为所述语音片段的情绪分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司;南京小爱智臻网络科技有限公司,未经上海智臻智能网络科技股份有限公司;南京小爱智臻网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711360276.0/1.html,转载请声明来源钻瓜专利网。