[发明专利]一种基于短时分析的异常情绪自动检测和提取方法和系统有效

申请号：	201210052659.2	申请日：	2012-03-02
公开（公告）号：	CN102623009A	公开（公告）日：	2012-08-01
发明（设计）人：	魏思;高前勇;胡国平;胡郁;刘庆峰	申请（专利权）人：	安徽科大讯飞信息技术股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/10
代理公司：	安徽汇朴律师事务所 34116	代理人：	丁瑞瑞
地址：	230000 安徽省合肥***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时分异常情绪自动检测提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的是一种模式识别和信号检测的方法和系统，尤其涉及的是一种基于短时分析的异常情绪自动检测和提取方法和系统。

背景技术

情绪是指由主观引起的一种强烈的感情状态，并且经常伴有心理上的变化。在实际呼叫中心、银行、医疗等服务类行业的客服领域，作为客户最直接的面对者，客服人员不仅是客户情绪传递最直接的媒介，其消极情绪也将直接影响到与客户的有效沟通并极可能产生不必要的投诉。对客服质量的有效监督和管理能及时发现问题、总结经验、提出建议并进而督促改进，提高服务质量。

传统客服质检主要采用人工方式检测客服历史电话录音或实时抽查检测。然而在客服业务量日益增多的当今，由于涉及到的客服语音数据规模日益庞大，单纯依靠人工处理海量数据显得过于繁重，同时人工长时间疲劳操作也会影响到检测质量。所以，需要一种可实现对异常情绪自动检测的系统和方法，从而大大减少人工任务量，提高工作效率。

目前，自动情绪检测系统和方法已在移动通讯、银行、医疗等服务类行业的呼叫中心应用上发挥着重要作用，帮助实现更高效的客服或客户人员情绪状态的检测评估，聚焦客户的满意度诉求和服务需求。传统情绪自动检测方法主要采用了经典模式分类算法，通过特征提取、特征筛选、模型训练和匹配等实现对输入语句情绪类别的判断。系统首先从待测语音段上提取情绪特征，采用诸如基频、语速、能量、共振峰等语音信号特征的统计信息，包括均值、方差、最大值、最小值、范围、斜率等。随后系统将提取或特征变换后的情绪特征和系统预置的情绪模型匹配，计算其与预设各模型的相似度，并选择具有最大似然度的模型作为给定语音段对应的情绪类型。

系统预置的情绪模型由系统预先在人工标注数据上训练得到，包括：按照事先定义的若干情绪类别，如“生气”、“高兴”、“平静”等，通过专人演示录音或从客服数据库人工标注抽取的方法，获取各情绪类别对应训练数据；提取所述训练数据的情绪特征序列；并利用所述训练数据的情绪特征序列训练所述情绪模型的参数，如基于最大似然的MLE算法等。

传统的算法虽然实现了对海量语音数据中异常情绪的检测，改进质检的工作效率，但其检测正确率依然存在很大的改进余地。

首先传统算法中提取的统计量相关的情绪特征，弱化了语音情绪短时变化的特点，破坏了特征参数本身的真实分布。特别是在真实语音中，带有异常情绪的语音段往往仅占待测定的语音很小成分，因而基于统计量的特征使得其他存在的静音、噪声及非异常情绪语音段在大大抵消少量异常情绪语音段的特异性特征，导致特征区分性进一步降低，进而引起检测效果的急剧下降。

其次基于人工标注数据训练情绪模型的方法，在异常情绪语音数据量较少的实际应用环境下，模型难以准确模拟真实分布，影响到系统性能。

最后传统模式匹配算法中将提取的情绪特征和系统预置的多个情绪模型匹配计算其相似度并选择具有最大似然度的模型作为匹配对象，在异常情绪仅占待检测语音段很小比率时，由于具有较强区分效果的语音段过短，似然度得分将被非异常情绪语音段的特征主导，导致判断错误，影响到异常情绪检测的效果。

发明内容

本发明的目的在于克服现有技术的不足，提供了一种基于短时分析的异常情绪自动检测和提取方法和系统，提高海量客服数据的自动处理效率。

本发明是通过以下技术方案实现的，一种基于短时分析的异常情绪自动检测和提取方法，包括以下步骤：

(1)提取待测语音信号中情绪特征序列；

(2)计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度，计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度；

(3)根据所述情绪特征序列与异常情绪模型的似然度，以及所述情绪特征序列与非异常情绪模型的似然度，计算似然比；

(4)判断所述似然度是否大于设定的阈值，如是，则确定所述待测语音信号为异常情绪语音，否则确定所述待测语音信号为非异常语音信号。

所述步骤(1)包括以下步骤：

1)从待测语音数据中按时间顺序逐帧提取语音信号帧O_i；

2)对提取的语音信号帧O_i通过短时分析得到d维短时动态特征矢量x_i，将连续的语音信号表征为短时的情绪特征序列X，X＝{x₁，x₂，...，x_i，...，x_T}，其中：x_i为d维矢量，T为该情绪特征序列的总帧数。