[发明专利]用于语音编码器的方法和语音活动检测器有效

专利信息
申请号: 201080057984.7 申请日: 2010-10-18
公开(公告)号: CN102804261A 公开(公告)日: 2012-11-28
发明(设计)人: 马丁·绍尔斯戴德 申请(专利权)人: 瑞典爱立信有限公司
主分类号: G10L11/02 分类号: G10L11/02
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 王波波
地址: 瑞典斯*** 国省代码: 瑞典;SE
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 语音 编码器 方法 活动 检测器
【说明书】:

技术领域

发明的实施例涉及方法和语音活动检测器,具体涉及语音活动检测器的阈值适配。

背景技术

在用于对话语音的语音编码系统中,通常使用非连续发送(DTX)来增加编码的效率。原因是对话语音包含了嵌入在语音中的大量停顿,例如当一个人在说话而另一个人在聆听时。因此,利用DTX,语音编码器平均仅在大约50%的时间上是活动的,且可以使用舒适噪声对其余时间进行编码。舒适噪声是在解码器侧产生的人为噪声,仅类似于编码器侧噪声的特性,并且因此需要较少的带宽。具有该特征的一些示例编解码器是AMR NB(自适应多速率窄带)和EVRC(增强型可变速率CODEC)。注意,AMR NB使用DTX,而EVRC使用可变速率(VBR),其中,速率确定算法(RDA)基于VAD(语音活动检测),来决定针对每帧使用哪一种数据速率。

对于高质量DTX操作,即,无劣化语音质量的情况下,在输入信号中检测语音的周期是十分重要的。这是通过用于DTX和RDA的语音活动检测器(VAD)来实现的。应注意的是,语音也称为话音。图1示出了一般化VAD 180的总体框图,其获取输入信号100作为输入,输入信号100根据具体实现被分为5至30ms的数据帧,并产生VAD判决作为输出160。即,VAD判决160是针对每帧的该帧包含语音还是噪声的判决。

通用VAD 180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧,通用VAD 180计算特征,且为了识别活动帧,将当前帧的特征与该特征对于背景信号“看起来”如何的估计进行比较。

由初级语音活动检测器140作出初级判决“vad_prim”150,且初级判决“vad_prim”150基本上就是对当前帧的特征与根据之前的输入帧估计出的背景特征的比较,其中,大于阈值的差异导致活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对该初级判决进行扩展,以形成最终判决“vad_flag”160。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“语音突发”(speech burst)的后端截断(backend clipping)。然而,该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响的长度。

存在可以用于VAD检测的大量不同的特征。最基本的特征是只查看帧能量,并将其与阈值进行比较,以判决该帧是否是语音。该方案在高SNR的条件下工作得相当好,但是在低SNR条件下工作得不好。在低SNR的情况下,必须取而代之地使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言,对VAD功能的附加要求在计算复杂度,且这在标准编解码器(例如AMR NB、AMR WB(自适应多速率宽带)、EVRC以及G.718(ITU-T建议嵌入式可扩缩语音和音频编解码器))中反映在对子带SNRVAD的频率表示上。这些示例编解码器还使用各种形式的阈值适配。通常,背景和语音强度估计可以基于判决反馈或者用于更新的独立的次级VAD,背景和语音强度估计还用于SNR估计。在任一情况下,VAD=0应理解为:输入信号被估计为噪声;VAD=1应理解为:输入信号被估计为语音。强度估计的另一选择是使用最小输入能量和最大输入能量来分别跟踪背景和语音。对于输入噪声的可变性,可以计算先前帧在滑动时间窗上的变化。另一方案是监测负值输入SNR的量。然而,这基于以下假设:负值SNR仅由输入噪声变化引起。先前帧的滑动时间窗意味着:针对指定数量的先前帧,以关注的变量(帧能量或子带能量)创建缓冲区。当新帧到达时,通过从缓冲器中移除最早的值并插入最新的值来更新缓冲区。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞典爱立信有限公司,未经瑞典爱立信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080057984.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top