[发明专利]一种单通道语音去混响的方法和装置有效
申请号: | 201210201879.7 | 申请日: | 2012-06-18 |
公开(公告)号: | CN102750956A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 楼夏夏;吴晓婕;李波 | 申请(专利权)人: | 歌尔声学股份有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 261031 山东省潍*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 语音 混响 方法 装置 | ||
1.一种单通道语音去混响的方法,其特征在于,所述方法包括:
对输入的单通道语音信号进行分帧,按时间顺序对帧信号进行如下处理:
对当前帧进行短时傅里叶变换,获得当前帧的功率谱和相位谱;
选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧,将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱;
通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱,得到当前帧的直达声和早期反射声的功率谱;
将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换,获得当前帧去混响后的信号。
2.根据权利要求1所述的方法,其特征在于,
依据晚期反射声的衰减特性,设置所述时长范围的上限值;
和/或,
依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域,设置所述时长范围的下限值。
3.根据权利要求1所述的方法,其特征在于,
所述时长范围的上限值选择在0.3秒~0.5秒之间的值。
4.根据权利要求1所述的方法,其特征在于,
所述时长范围的下限值选择在50毫秒~80毫秒之间的值。
5.根据权利要求1-4任一项所述的方法,其特征在于,
所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括:
应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加,并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加,估计出当前帧的晚期反射声的功率谱。
6.一种单通道语音去混响的装置,其特征在于,所述装置包括:
分帧单元,用于对输入的单通道语音信号进行分帧,按时间顺序向傅里叶变换单元输出帧信号;
傅里叶变换单元,用于对接收的当前帧进行短时傅里叶变换,获得当前帧的功率谱和相位谱,向谱减单元和谱估计单元输出当前帧的功率谱,向傅里叶逆变换单元输出相位谱;
谱估计单元,用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加,估计出当前帧的晚期反射声的功率谱,向谱减单元输出估计的当前帧的晚期反射声的功率谱;
谱减单元,用于通过谱减法从傅里叶变换单元获得的当前帧的功率谱中去除从谱估计单元获得的当前帧的晚期反射声的功率谱,得到当前帧的直达声和早期反射声的功率谱,向傅里叶逆变换单元输出当前帧的直达声和早期反射声的功率谱;
傅里叶逆变换单元,用于将从谱减单元获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元获得的当前帧的相位谱一起进行短时傅里叶逆变换,输出当前帧去混响后的信号。
7.根据权利要求6所述的装置,其特征在于,
所述谱估计单元具体用于,依据晚期反射声的衰减特性设置所述时长范围的上限值;和/或,依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。
8.根据权利要求6所述的装置,其特征在于,
所述谱估计单元具体用于,选择时长范围的上限值为0.3秒~0.5秒之间的值。
9.根据权利要求6所述的装置,其特征在于,
所述谱估计单元具体用于,选择时长范围的下限值为50毫秒~80毫秒之间的值。
10.根据权利要求6-9任一项所述的装置,其特征在于,
所述谱估计单元具体用于:
对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧,应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧,应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱;
或者,
对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧,应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加,并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加,估计出当前帧的晚期反射声的功率谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于歌尔声学股份有限公司,未经歌尔声学股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210201879.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:片材贴合方法及片材贴合装置
- 下一篇:骨组织光透明剂