[发明专利]一种单通道语音去混响的方法和装置有效
申请号: | 201210201879.7 | 申请日: | 2012-06-18 |
公开(公告)号: | CN102750956A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 楼夏夏;吴晓婕;李波 | 申请(专利权)人: | 歌尔声学股份有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 261031 山东省潍*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 语音 混响 方法 装置 | ||
技术领域
本发明涉及语音增强领域,特别涉及单通道语音去混响的方法和装置。
背景技术
在远距离语音通讯中,麦克风端接收的信号容易受到环境混响的影响。比如,在房间内,语音经过墙面、地板和家具等多次放射,麦克风端接收到的信号是直达声和反射声的混合信号。这部分反射声就是混响信号。当说话人距离麦克风比较远,且通话环境是一个相对封闭的空间时,就很容易产生混响。混响严重时,会导致语音不清楚,影响通话质量。另外,混响带来的干扰,还会导致声学接收系统性能变差,语音识别系统性能显著下降等。
早期的去混响方法主要是利用反卷积来进行的。这类方法需要提前知道准确的混响环境(房间或办公室等)的冲激响应或传递函数。混响环境的冲激响应可以通过某种特别的方法或装置提前测量得到,也可以通过其它方法单独估计得到。然后利用这个已知的混响环境冲激响应,估计逆滤波器,实现对混响信号的反卷积,从而实现去混响。这类方法的问题是,混响环境的冲激响应往往很难提前获得,且求取逆滤波器的过程本身可能引入新的不稳定因素。
另一类去混响方法,不需要估计混响环境的冲激响应,因此不需要计算逆滤波器和进行逆滤波运算,也被称为盲去混响方法。这类方法通常基于语音模型假设,比如:混响导致接收的浊音激励脉冲发生变化,使得周期性变得不那么明显,从而影响语音清晰度。这类方法一般基于LPC(Linear Prediction Coding,线性预测编码)模型,假定产生语音的模型是一个全极点模型,而混响或其它加性噪声在整个系统中引入了新的零点,从而干扰了浊音激励脉冲,但并不影响全极点滤波器。去混响方法是:估计信号的LPC残差,然后按照基因同步猝发准则(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化准则等,来估计干净的脉冲激励序列,从而实现去混响。这类方法的问题是计算复杂度往往非常高,且对于混响只影响全零点滤波器的假设,与实验分析存在不相符的情况。
利用谱减法去混响是一个较佳的方案,语音信号包括直达声、早期反射声和晚期反射声,采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去能够提高语音质量。但其中的关键问题在于晚期反射声的谱的估计,即如何获得比较准确的晚期反射声的功率谱,从而在将晚期反射声的成份有效去除的同时又不损伤语音。在单通道语音去混响中,因为只有一路麦克风信息可用,因此估计混响环境的传递函数或估计混响时间(RT60)非常困难。
发明内容
本发明提供的一种单通道语音去混响的方法和装置,以解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。
本发明公开了一种单通道语音去混响的方法,所述方法包括:
对输入的单通道语音信号进行分帧,按时间顺序对帧信号进行如下处理:
对当前帧进行短时傅里叶变换,获得当前帧的功率谱和相位谱;
选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧,将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱;
通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱,得到当前帧的直达声和早期反射声的功率谱;
将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换,获得当前帧去混响后的信号。
较佳地,依据晚期反射声的衰减特性,设置所述时长范围的上限值;
和/或,
依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域,设置所述时长范围的下限值。
较佳地,所述时长范围的上限值选择在0.3秒~0.5秒之间的值。
较佳地,所述时长范围的下限值选择在50毫秒~80毫秒之间的值。
较佳地,所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括:
应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加,并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加,估计出当前帧的晚期反射声的功率谱。
本发明还公开了一种单通道语音去混响的装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于歌尔声学股份有限公司,未经歌尔声学股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210201879.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:片材贴合方法及片材贴合装置
- 下一篇:骨组织光透明剂