[发明专利]合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序有效
申请号: | 201480006383.1 | 申请日: | 2014-01-28 |
公开(公告)号: | CN105009210B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 纪尧姆·福克斯;汤姆·巴克斯特伦;拉尔夫·盖格尔;沃尔夫冈·耶格斯;以马利·拉韦利 | 申请(专利权)人: | 弗劳恩霍夫应用研究促进协会 |
主分类号: | G10L19/12 | 分类号: | G10L19/12;G10L19/26;G10L19/06 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 潘剑颖 |
地址: | 德国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 合成 音频 信号 装置 方法 解码器 编码器 系统 以及 计算机 程序 | ||
技术领域
本发明涉及音频编码领域,更具体地,涉及合成音频信号领域。实施例涉及语音编码,具体地,涉及称为码激发线性预测编码(CELP)的语音编码技术。实施例提供用于在新颖或固定码本中形成CELP的码的过程中进行自适应倾斜补偿的方法。
背景技术
CELP编码方案广泛地用于语音通信中,且是对语音进行编码的高效方式。CELP通过将两个激发的和传递至线性预测滤波器(例如,LPC合成滤波器1/A(z))来合成音频信号。一个激发来自经过解码的过去(其被称为自适应码本),且另一贡献来自由固定码填充的固定或新颖码本。CELP编码方案的一个问题在于,在低比特率下,新颖码本未被充分地填充以用于高效地对语音的精细结构进行模型化(modeling),从而感知的质量降级且所合成的输出信号听起来嘈杂。
为了减轻编码伪像,在参考文献[1]中和参考文献[2]中已经提出和描述了不同的解决方案。在这些参考中,通过增强对应于音频信号的当前帧的共振峰(formant)的频谱区域来自适应地且频谱地(spectrally)形成新颖码本的码。共振峰位置及形状可直接根据LPC系数来推断,LPC系数为在编码器及解码器两者处都可用的系数。对新颖码本的码c(n)的共振峰增强是通过以下简单滤波操作实现的:
c(n)*fe(n)。
在此滤波过程中,fe(n)是具有以下转移函数的滤波器的脉冲响应:
其中w1及w2为两个加权常数,其或多或少地强调转移函数Fe(z)的共振峰结构。新颖码本的所得的所形成的码继承了语音信号的一个特性且所合成的信号听起来噪声较少。
在CELP编码方案中,通常还将向新颖码本的码添加频谱倾斜,这是通过如下对来自新颖码本的码进行如下滤波来实现的:
Ft(z)=1-βz-1。
因子β与先前音频帧的发声有关,且可根据来自自适应码本的能量贡献估计发声。举例而言,若先前帧有声,则预期当前帧亦有声,并且码将在低频中具有更多能量,即,频谱具有负倾斜。
发明内容
本发明的目的是提供一种用于合成音频信号的改进方法。
此目的是通过根据权利要求1的装置及通过根据权利要求19的方法来实现的。
本发明提供一种用于合成音频信号的装置,所述装置包括处理单元,该处理单元被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
本发明提供一种用于合成音频信号的方法,所述方法包括将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜是基于所述音频信号的当前帧的频谱倾斜确定的。
本申请的发明人发现,通过在合成信号时利用音频信号的频谱倾斜的性质来改进可实现的编码增益,可以在低比特率及较高比特率处都进一步改进音频信号的合成。根据实施例,本发明涉及语音编码,例如,使用CELP语音编码技术,该CELP语音编码技术允许增强CELP的编码增益,从而增强经过解码或合成的信号的感知质量。本发明的方法是基于发明人的以下发现:可通过根据当前处理的实际输入信号的频谱倾斜的函数,适配码本的码(例如,CELP新颖码本的码)的频谱倾斜,来实现这一改进。本发明的方法是有利的,这是因为,除了增强的编码增益外,在低比特率下(其中新颖码本未被充分填充以用于高效地模型化语音的精细结构),其还允许进一步的共振峰增强。在较高比特率下(其中新颖码本被充分填充),应用本发明的方法将增强编码增益。更具体地,在较高比特率下,可不需要共振峰增强,这是因为新颖码本对于适当地模型化语音的精细结构来讲足够大,且进一步增强共振峰将使所合成的信号听起来过于合成。然而,最佳码并非在频谱上平坦的,且添加频谱倾斜将增强编码增益。根据实施例,对将要应用于新颖码本的码的最佳倾斜的估计越准确,其与输入信号的当前帧的倾斜关联越清晰(specifically)。
根据实施例,基于针对音频信号的当前帧的频谱包络信息确定音频信号的当前帧的频谱倾斜,其中频谱包络信息可由LPC系数定义。此实施例是有利的,因为其允许基于已经在编码器及解码器两者处可用的信息(即,LPC系数)确定当前帧的频谱倾斜。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗劳恩霍夫应用研究促进协会,未经弗劳恩霍夫应用研究促进协会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480006383.1/2.html,转载请声明来源钻瓜专利网。