[发明专利]降混器及降混方法在审
申请号: | 202080019078.1 | 申请日: | 2020-03-04 |
公开(公告)号: | CN113544774A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 弗兰兹·鲁特胡伯;伯恩德·埃德勒;埃伦妮·福托波罗;马尔库斯·穆特鲁斯;帕拉维·马本;萨沙·迪施 | 申请(专利权)人: | 弗劳恩霍夫应用研究促进协会 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;H04S3/02;H03G5/16;G10L19/02 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋融冰 |
地址: | 德国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 降混器 方法 | ||
一种对具有至少两个声道的多声道信号进行降混的降混器,包括:加权值估计器(100),用于为至少两个声道估计频带式加权值;频谱加权器(200),用于使用频带式加权值对至少两个声道的频谱域表示进行加权;转换器(300),用于将至少两个声道的经加权的频谱域表示转换成至少两个声道的时间表示;以及混合器(400),用于混合至少两个声道的时间表示以获得降混信号。
本发明针对音频信号处理,尤其针对多声道信号的降混或音频信号的频谱分辨率转换。
尽管立体声编码比特流通常将被解码以在立体声系统上回放,但并非能够接收立体声比特流的所有装置都将始终能够输出立体声信号。一种可能的场景是在仅具备单声道扬声器的手机上回放立体声信号。随着新兴的3GPP IVAS标准支持的多声道移动通信场景的到来,因此需要尽可能高效的免于额外延迟及复杂性的立体声至单声道降混,同时还要提供超越简单被动降混可实现的感知质量的最佳可能感知质量。
存在将立体声信号转换成单声道信号的多种方法。最直接的实现方法是在时间域中通过被动降混[1],其通过添加左与右声道以及将结果缩放来产生中间信号:
基于时间域的其他更复杂(即主动)的降混方法包括能量缩放企图保持信号的整体能量[2][3],相位对准以避免抵消效应[4],以及防止由相干抑制(coherencesuppression)引起的梳状滤波效应[5]。
另一种方法是通过对于多个频谱带计算独立的加权因子,以频率相依方式进行能量校正。例如,这作为MPEG-H格式转换器[6]的部分被完成,其中在声道的额外先验相位对准的情况下对混合QMF子频带表示或经STFT滤波器的信号执行降混。在IVAS的上下文中,类似的频带式(band-wise)降混(包括相位及时间对准)已被用于参数化低比特率模式的DFT立体声,其中加权及混合被应用于DFT域中[7]。
在对立体声信号进行解码后,在时间域中的被动立体声至单声道降混的简单解决方案并不是理想的,因为众所周知的是,纯粹被动降混会带来某些缺点,例如相位抵消效应或能量的一般性损失(这可能取决于项目)而严重降低质量。
纯粹基于时间域的其他主动降混方法可以缓解被动降混的某些问题,但是由于缺少频率相依加权,因此仍然不是最佳选择。
由于像IVAS这样的移动通信编解码器在延迟及复杂性方面的隐式约束,具有像MPEG-H格式转换器这样的专用后处理级对于应用频带式降混而言也非一选项,因为至频率域并返回的必要变换将不可避免地导致复杂性及延迟的增加。
对于像[8]中那样利用TCX变换编码与块切换的立体声编解码器模式,可以使用不同的模式:例如,以20ms的块大小每帧一块(TCX20),及以10毫秒的块大小每帧两个子块(TCX10)。每个子块是10ms的整个TCX10块,或是又被细分为两个5ms的块(TCX5)。对于每个声道都独立于另一个声道做出使用哪种模式的决策。这意味着可以在声道之间具有不同决策。由于各个频谱域表示的时间频率分辨率不同,这使得不可能使用与[7]中描述的在基于DFT的立体声编码器处所使用的完全相同的降混方法(声道的频带式加权,然后的单声道降混均在DFT域中)。
本发明的目的是提供一种用于音频信号处理的改进概念。
此目的由权利要求1或35的降混器、权利要求46或47降混方法或权利要求48的计算机程序实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗劳恩霍夫应用研究促进协会,未经弗劳恩霍夫应用研究促进协会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080019078.1/2.html,转载请声明来源钻瓜专利网。