[发明专利]一种基于听觉感知特性的语音质量客观评价方法无效

申请号：	201210332288.3	申请日：	2012-09-11
公开（公告）号：	CN102881289A	公开（公告）日：	2013-01-16
发明（设计）人：	谭晓衡;秦基伟;周帅;裴婧;黄振林;唐永刚;马旭东	申请（专利权）人：	重庆大学
主分类号：	G10L19/00	分类号：	G10L19/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	400044 重庆市沙坪坝***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于听觉感知特性语音质量客观评价方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术，更具体地，涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中，通过计算特征参数的失真程度来实现语音质量客观评价的方法。

背景技术

语音质量评价是衡量语音通信系统性能优劣的根本标准之一，从评价主体上讲可分为两大类：主观评价和客观评价。ITU-T建议P.830提出的MOS（Mean Opinion Score）方法是一种广泛使用的主观评价方法，用测试者的平均意见分来直观地反映人对语音质量的感觉，但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量，使客观评价结果能够准确预测出语音质量的主观评价结果，具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏，是一种误差度量。目前，比较成熟的算法基本上都是基于输入-输出方式的，包括：PESQ、Mel-CD等。

ITU-T建议P.862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法，能够较好地识别通信时延、环境噪声和错误，但其是基于Bark谱的感知模型，运算复杂度较高，不利于实时评价语音质量。

Mel-CD失真测度以MFCC作为语音特征参数，运算复杂度较低，是一种简便有效的语音质量评价方法，但其评价性能与PESQ相差较大。分析表明，虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性，但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程，并不能充分地反映人耳的听觉感知特性。

Gammatone滤波器具有尖锐的频率选择特性，滤波器边沿的衰减很缓慢，有效地避免了相邻频带间的能量泄露，这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的，也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响；同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据，便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换，能使特征参数的提取过程更好地符合听觉生理模型。

发明内容

本发明的目的是针对MFCC特征参数提取过程中存在的问题，提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术，使用Gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型，得到一种新的特征参数来进行语音质量客观评价。说明书附图1示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。

基于听觉感知特性的语音质量客观评价方法是这样实现的：

1．采集原始语音和通过被测系统的失真语音，对两路语音信号进行电平调整、带通滤波和时间对齐等预处理，以便于分别提取两路信号的特征参数；

2．加汉宁窗对预处理后的语音信号进行分帧，提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先，使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波，能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征；接着，对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性，这不仅符合了人耳的听觉感知特性，而且计算过程简单；然后，立方根能量经过RASTA滤波，抑制了信号频谱中的常量或变化缓慢的非语音部分，同时增强了动态成分；最后，经过DCT变换（离散余弦变换）到倒谱域，即可实现特征参数的提取；

3．计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D，用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观（预测）MOS值，MOS值的大小说明了被测系统语音质量的好坏。

与其它的技术相比，本发明具有以下的优点：

1．使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型，有效地提高了客观评价结果与主观评价结果的相关度；

2．Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据，立方根变换避免了复杂的计算模型，使得算法复杂度低且运行时间较短，适合于语音质量实时评价和嵌入式系统实现；

3．适用于评价CS-ACELP、ADPCM、LD-CELP、GSM、 -PCM/A-PCM和VSELP等编码算法下的语音信号，算法通用性强；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210332288.3/2.html，转载请声明来源钻瓜专利网。