[发明专利]使用音频对象的时间变化的音频对象聚类有效
申请号: | 201410078314.3 | 申请日: | 2014-02-28 |
公开(公告)号: | CN104882145B | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 陈连武;芦烈;J·布里巴特 | 申请(专利权)人: | 杜比实验室特许公司 |
主分类号: | G10L19/022 | 分类号: | G10L19/022;H04S7/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 音频 对象 时间 变化 | ||
1.一种用于在音频对象聚类中使用音频对象的时间变化的方法,所述方法包括:
确定多个音频对象簇的多个质心,其中所述多个音频对象簇包括多个音频对象,其中确定所述多个质心包括:针对所述多个音频对象中的每个音频对象:
获取与所述音频对象相关联的音轨的至少一个片段,所述至少一个片段包含所述音频对象;
基于所述音频对象的至少一个属性,估计所述音频对象在所述至少一个片段的持续时间上的变化;以及
至少部分地基于估计的所述变化,调整所述音频对象在所述音频对象聚类中对聚类中心的确定的贡献,
其中:
所述音频对象的所述贡献至少部分地基于对所述音频对象的感知重要性的估计而确定,并且调整所述贡献包括将增益应用于所述音频对象的所述感知重要性,所述增益随着所估计的变化增加而降低;和/或
调整所述音频对象的所述贡献包括:至少部分地基于所估计的变化大于预定义变化阈值的这一确定,在所述音频对象聚类中从所述质心的所述确定中排除所述音频对象;以及
根据所述多个质心中的最接近的质心,将所述多个音频对象中的每个音频对象分配到所述多个音频对象簇的一个音频对象簇。
2.根据权利要求1所述的方法,其中获取所述音轨的所述至少一个片段包括基于以下至少一个对所述音轨进行分段:
所述音频对象的特征的一致性;
所述音频对象的感知属性,所述感知属性指示所述音频对象的感知水平;以及
预定义的时间窗。
3.根据权利要求1或者2所述的方法,其中所述音频对象的所述至少一个属性包括所述音频对象的感知属性,所述感知属性指示所述音频对象的感知水平,并且其中估计所述音频对象的所述变化包括:
估计所述感知属性在所述至少一个片段的所述持续时间上的间断性。
4.根据权利要求3所述的方法,其中估计所述感知属性的所述间断性包括估计以下至少一个:
所述感知属性在所述持续时间上的动态范围;
所述感知属性在所述持续时间上的跃迁频率;以及
所述感知属性在所述持续时间上的高阶统计量。
5.根据权利要求2到4任一项所述的方法,其中所述音频对象的所述感知属性包括以下至少一个:
所述音频对象的响度;
所述音频对象的能量;以及
所述音频对象的感知重要性。
6.根据权利要求1到5任一项所述的方法,其中估计所述音频对象的所述变化包括:
估计所述音频对象在所述至少一个片段的所述持续时间上的空间速度。
7.根据权利要求1到6任一项所述的方法,其中调整所述音频对象的所述贡献包括:
至少部分地基于估计的所述变化,调整所述音频对象在所述音频对象聚类中被选择作为所述聚类中心的概率;或者
至少部分地基于估计的所述变化,调整所述音频对象在所述音频对象聚类中对所述聚类中心的更新的贡献。
8.根据权利要求1所述的方法,其中对所述音频对象的所述排除还基于一组约束,所述一组约束包括以下至少一个:
如果所述音频对象的预定义邻域内的至少一个音频对象未从所述聚类中心的所述确定中被排除,则排除所述音频对象;以及
如果所述音频对象在所述至少一个片段的先前帧中已经从所述聚类中心的所述确定中被排除,则排除所述音频对象。
9.根据权利要求1到8任一项所述的方法,还包括:
确定与所述音频对象相关联的场景的复杂性,
其中所述音频对象的所述贡献基于所述音频对象的估计的所述变化以及确定的所述场景的所述复杂性而被调整。
10.根据权利要求9所述的方法,其中所述场景的所述复杂性基于以下至少一个来确定:
所述场景中的音频对象的数目;
输出类的数目;以及
所述场景中的音频对象的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比实验室特许公司,未经杜比实验室特许公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410078314.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:以降低的成本和加强的可靠性制造磁屏蔽件的方法
- 下一篇:一种云智能学习机器人