[发明专利]娱乐音频中的语音增强有效
| 申请号: | 200880009929.3 | 申请日: | 2008-02-20 |
| 公开(公告)号: | CN101647059A | 公开(公告)日: | 2010-02-10 |
| 发明(设计)人: | H·米施 | 申请(专利权)人: | 杜比实验室特许公司 |
| 主分类号: | G10L11/02 | 分类号: | G10L11/02;G10L21/02;H04R25/00 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 杨国权 |
| 地址: | 美国加*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 娱乐 音频 中的 语音 增强 | ||
技术领域
本发明涉及音频信号处理。更具体地,本发明涉及处理例如电视音频的娱乐音频以提高诸如对话或叙述(narrative)音频的语音(speech)的清晰度和可懂度。本发明涉及方法、执行所述方法的设备、以及用于使得计算机执行所述方法的在计算机可读介质中存储的软件。
背景技术
视听娱乐已发展成对话、叙述、音乐与音效的快节奏序列。通过现代的娱乐音频技术与产生方法可实现的高真实性鼓励了在电视上使用谈话式讲话(speaking)风格,其大大区别于过去的清楚宣告的具舞台感的呈现。这种情况不仅对日益增长的高龄观众群体造成了问题,面临衰退的感官和语言处理能力的这些高龄观众需要努力跟上节目,但例如当在低音量下进行收听时这种情况也对具备正常听力的人造成问题。
语音能被理解到什么程度取决于几个因素。示例为语音产生的关注度(清晰的还是谈话式的语音)、讲话速度、以及语音的可听度。口语语言是非常鲁棒的,并且在不甚理想的条件下也可以被理解。例如,即使当听力受损的听者由于衰退的听敏度而不能听到部分语音时,他们通常仍然能听懂清楚的语音。但是,当讲话速度提高而语音产生变得比较不准确时,则需要更多的努力来收听和理解,特别是在部分语音频谱是不可听见的情况下。
因为电视观众决不能影响广播语音的清晰度,因此听力受损的听者可试图通过提高收听音量以补偿可听度不足。除了使在同一房间中的正常听力人群或邻居反感以外,这种方法还仅仅部分有效。这是因 为大多数听力损失在频率上是不均匀的;听力损失对高频的影响比对低频和中频的影响更大。比如,典型的70岁男性收听6kHz的声音的能力比年轻人差大概50分贝,但是在低于1kHz的频率上,老年人的听力缺陷小于10分贝(ISO 7029,Acoustics-Statistical distribution ofhearing thresholds as a function of age)。音量的提高使得低频和中频的声音变得更大,但是并没有显著增加它们对可懂度的贡献,这是因为对于那些频率,可听度已经足够了。提高音量对于克服高频下的显著听力损失也几乎不起作用。一种更合适的校正是例如由图像均衡器提供的音调控制。
尽管音调控制是比简单地提高音量的控制更好的选择,但是音调控制对于大多数听力损失仍是不足的。使听力受损的听者可听见轻柔段落(passage)所需的大的高频增益在高电平的段落可能会令人不适地喧闹,并且甚至使音频重放链路过载。一种较好的解决方案是根据信号电平放大,对低电平的信号部分提供较大的增益,而对高电平部分提供较小的增益(或者完全没有增益)。被称为自动增益控制(AGC)或者动态范围压缩器(DRC)的这种系统用于助听器,并且已提出在电信系统使用它们来为听力受损者提高可懂度(例如,美国专利5,388,185,美国专利5,539,806以及美国专利6,061,431)。
因为听力损失通常是逐渐发展的,大多数具有听力困难的听者已逐渐习惯于他们的损失。结果,当娱乐音频被处理以补偿他们的听力损伤时,他们经常对娱乐音频的音质反感。听力受损的观众更倾向于在被补偿音频的音质给他们带来实在益处时,例如当它提高对话与叙述的可懂度或者减少理解所需的脑力时,接受该补偿音频的音质。因此,将听力损失补偿的应用限于音频节目的以语音为主的那些部分是有利的。这样做可以优化以下两方面之间的折衷,其中一方面是背景声音以及音乐的可能令人反感的音质改变,另一方面是所希望的可懂度的益处。
发明内容
根据本发明的一个方面,可通过响应于一个或多个控制处理娱乐音频以提高娱乐音频中语音部分的清晰度和可懂度,并且生成对所述处理的控制,来增强娱乐音频中的语音,所述生成包括:将娱乐音频的时间区段特征化为(a)语音或非语音或者(b)可能是语音或非语音,并且响应于娱乐音频中的电平的变化而提供对所述处理的控制,其中在比所述时间区段更短的时间段中响应这样的变化,并且通过所述特征化来控制所述响应的判定准则。所述处理和响应可以均在相应的多个频带中操作,所述响应对于多个频带中的每一个提供对处理的控制。
本发明的各方面可以用“预见”方式操作,从而有对在处理点之前和之后的娱乐音频的时间演进(evolution)访问,并且其中所述生成控制的步骤响应于处理点之后的至少某个音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比实验室特许公司,未经杜比实验室特许公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880009929.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:实时余额更新
- 下一篇:显示设备以及利用该显示设备控制游戏的方法





