[发明专利]音频驱动的视区选择有效
申请号: | 201880042494.6 | 申请日: | 2018-05-22 |
公开(公告)号: | CN110786016B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | N·G·彼得斯;S·塔加迪尔·施瓦帕;D·森 | 申请(专利权)人: | 高通股份有限公司 |
主分类号: | H04N21/2343 | 分类号: | H04N21/2343;H04N21/2368;H04N21/439;H04N21/6587;H04N21/81 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 赵腾飞 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 驱动 选择 | ||
1.一种用于视区选择的装置,其包括:
存储器,其经配置以存储与包括一或多个前景音频对象的声场的立体混响表示相关联的位流和音频空间元数据,所述音频空间元数据描述所述一或多个前景音频对象的方向性;及
处理器,其耦合至所述存储器,所述处理器经配置以:
解码与所述声场相关联的所述位流和所述音频空间元数据,且使用存储至所述存储器的所述音频空间元数据来识别所述声场的一或多个前景音频对象;
解析包括所述经识别的一或多个前景音频对象的立体混响表示的所述音频空间元数据以获得一或多个主导声音的一或多个方向;
基于所述一或多个主导声音的所述一或多个方向而选择与视频数据视区相关联的一或多个视区中的经预测视区,其中,所述一或多个主导声音识别所述一或多个前景音频对象;及
相比于先前请求所述视频数据的与所述经预测视区相关联的部分的当前分辨率,以较高分辨率请求所述视频数据的与所述经预测视区相关联的所述部分。
2.根据权利要求1所述的装置,其中所述处理器经进一步配置以:
确定与所述经识别的一或多个前景音频对象相关联的能量;及
使用与所述经识别的一或多个前景音频对象相关联的所述能量来选择一或多个视区中的所述经预测视区。
3.根据权利要求1所述的装置,其中所述处理器经进一步配置以基于所述经识别的一或多个前景音频对象而确定与所述一或多个视区相关联的视区数目。
4.根据权利要求1所述的装置,其中所述处理器经进一步配置以对存储至所述存储器的所述视频数据的部分进行升采样,所述经升采样部分与所述一或多个视区中的所选择的经预测视区相关联。
5.根据权利要求1所述的装置,其进一步包括经配置以输出表示包括所述经识别的一或多个前景音频对象的所述声场的音频数据格式的一或多个扩音器。
6.根据权利要求1所述的装置,其中所述处理器经配置以:
检测与3D画布相关联的经更新视场FoV信息;及
基于所述经更新FoV信息而更新所述一或多个视区中的所选择的经预测视区。
7.根据权利要求1所述的装置,进一步包括显示器,所述显示器耦合至所述处理器和所述存储器,其中所述显示器经配置以仅输出所述视频数据的与由所述处理器选择的所述经预测视区相关联的所述部分,而不输出所述视频数据的不与所选择的经预测视区相关联的其余部分。
8.根据权利要求1所述的装置,其中所述存储器经进一步配置以存储所述声场的多个表示,所述多个表示包括所述声场的多个基于对象的表示、所述声场的高阶立体混响表示、所述声场的混合阶立体混响表示、所述声场的基于声道的表示、所述声场的基于对象的表示与所述声场的高阶立体混响表示的组合、所述声场的基于对象的表示与所述声场的混合阶立体混响表示的组合,或所述声场的混合阶表示与所述声场的高阶立体混响表示的组合。
9.根据权利要求1所述的装置,其中所述处理器经配置以进一步基于与所述声场相关联的空间音频内容的空间能量分布而选择所述经预测视区。
10.根据权利要求1所述的装置,其中所述处理器经配置以进一步基于在识别所述一或多个前景音频对象之后的眼睛凝视而选择与视频数据相关联的一个或多个视区中的所述经预测视区。
11.根据权利要求1所述的装置,其中所述处理器经配置以:相比于与视频数据相关联并且不与所述经识别的一或多个前景音频对象相关联的视频对象,以较高分辨率表示与所述视频数据和所述经识别的一或多个前景音频对象相关联的视频对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高通股份有限公司,未经高通股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880042494.6/1.html,转载请声明来源钻瓜专利网。