[发明专利]包括音频对象的音频场景的高效编码有效
申请号: | 201910055563.3 | 申请日: | 2014-05-23 |
公开(公告)号: | CN109712630B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | H·普恩哈根;K·克约尔林;T·赫冯恩;L·维勒莫斯;D·J·布瑞巴特 | 申请(专利权)人: | 杜比国际公司 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;H04S3/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 周博俊 |
地址: | 荷兰阿*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 包括 音频 对象 场景 高效 编码 | ||
本公开涉及一种包括音频对象的音频场景的高效编码。提供用于基于对象的音频的编码和解码的编码和解码方法。其中,示例性编码方法包括:通过形成N个音频对象的组合来计算M个下混信号,其中,M≤N;以及计算允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数。根据独立于任何外放扬声器配置的准则来进行M个下混信号的计算。
本申请是申请日为2014年5月23日的、申请号为201480029569.9(国际申请号为PCT/EP2014/060734)以及发明名称为“包括音频对象的音频场景的高效编码”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求2013年5月24日提交的美国临时专利申请No:61/827246、2013年10月21日提交的美国临时专利申请No:61/893770、以及2014年4月1日提交的美国临时专利申请No:61/973623的申请日的权益,其中的每一个通过其完整引用合并到此。
技术领域
本公开在此总体上涉及包括音频对象的音频场景的编码。具体地说,其涉及用于音频对象的编码和解码的编码器、解码器以及相关联的方法。
背景技术
音频场景可以通常包括音频对象和音频通道。音频对象是具有可以随时间而变化的关联空间位置的音频信号。音频通道是直接与多通道扬声器配置(如具有三个前部扬声器、两个环绕扬声器以及一个低频效果扬声器的所谓的5.1扬声器配置)对应的音频信号。
由于音频对象的数量通常可以非常大,(例如在几百个音频对象的量级上),因此需要允许在解码器侧处高效地重构音频对象的编码方法。已经建议在编码器侧上将音频对象组合为多通道下混(downmix)(即与特定多通道扬声器配置(如5.1配置)的通道对应的多个音频通道),并且在解码器侧上从多通道下混以参变方式重构音频对象。
该方法的优点在于,不支持音频对象重构的传统解码器可以直接使用多通道下混,以用于多通道扬声器配置上的回放。通过示例的方式,可以在5.1配置的外放扬声器上直接播放5.1下混。
然而,该方法的缺点在于,多通道下混无法在解码器侧处给出音频对象的足够好的重构。例如,考虑具有与5.1配置的左前部扬声器相同的水平位置但不同的垂直位置的两个音频对象。这些音频对象将通常组合到5.1下混的同一通道中。这将在解码器侧处构成对于音频对象重构的以下挑战情况,必须从同一下混通道重构两个音频对象的近似,即一种不能确保完全重构并且有时甚至导致听觉伪声的处理。
因此需要提供高效并且改进的音频对象的重构的编码/解码方法。
在从例如下混重构音频对象期间一般采用辅助信息或元数据。该辅助信息的形式和内容可能例如影响所重构的音频对象的保真度和/或执行重构的计算复杂度。因此,将期望提供具有新的以及替选的辅助信息格式的编码/解码方法,其允许增加所重构的音频对象的保真度,和/或其允许减少重构的计算复杂度。
附图说明
现将参照附图描述示例实施例,在附图上:
图1是根据示例性实施例的编码器的示意性图解;
图2是根据示例性实施例的支持音频对象重构的解码器的示意性图解;
图3是根据示例性实施例的不支持音频对象重构的低复杂度解码器的示意性图解;
图4是根据示例性实施例的包括用于简化音频场景的依次布置的聚类组件的编码器的示意性图示;
图5是根据示例性实施例的包括用于简化音频场景的并行布置的聚类组件的编码器的示意性图解;
图6示出用于计算用于元数据实例集合的呈现矩阵的典型已知处理;
图7示出在呈现音频信号中所采用的系数曲线的推导;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比国际公司,未经杜比国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910055563.3/2.html,转载请声明来源钻瓜专利网。