[发明专利]有语音的话音检测方法和装置有效
申请号: | 201580002145.8 | 申请日: | 2015-11-19 |
公开(公告)号: | CN105706167B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 汤米·福克;厄兰多·卡尔森;哈拉尔德·波布洛斯 | 申请(专利权)人: | 瑞典爱立信有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 穆童 |
地址: | 瑞典斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 话音 检测 方法 装置 | ||
技术领域
本申请涉及用于检测音频信号中有语音的话音的方法和设备。
背景技术
语音活动性检测(VAD)被用于在话音处理中检测信号中人类话音的存在或缺失。在话音处理应用中,语音活动性检测由于通常可以丢弃非话音帧而发挥重要作用。在话音编解码器中,语音活动性检测被用于判定何时实际存在应当被编码并发送的话音,因此避免对静默或背景噪声帧的不必要的编码和发送。这被称作不连续传输(DTX)。作为另一示例,语音活动性检测可以被用作对其它音频处理算法的预处理步骤,以避免对不包含话音的数据运行更复杂的算法(例如,在话音识别中)。语音活动性检测还可以被用作自动电平控制/自动增益控制(ALC/AGC)的一部分,其中该算法需要知晓何时存在活动话音并可以测量活动话音电平。在视频会议混合器中,语音活动性检测可以被用作用于判定哪个与会人员是当前活跃的并应当在主视频窗口中显示的触发。
语音活动性检测通常基于检测组成口语的不同声音的技术的组合。话音包含调性的声音,称为有语音的,以及非调性的声音,称为非语音的。这些声音在性质及物理上产生它们的方式上均差异很大。因此,通常在VAD中使用用于检测这两者的不同方法。
为了检测有语音的话音,通常使用不同类型的音高检测技术。存在执行音高检测的各种方法,并且这些方法中的许多是基于自相关函数(ACF)的:
其中s是输入信号,l是延迟的采样数,称为滞后(lag),并且(t:t+N-1)是时间t处的长度为N的分析窗,在该分析窗上评估自相关和。
ACF给出了所调查信号的周期行为的信息,其中强音高产生一系列峰。通常,最高峰是与有音高的声音的基频相对应的峰。图1示出了有语音的话音信号的ACF的典型示例。在这种情况下,ACF中最高峰的位置与基础周期相对应。x-轴示出了箱(bin)数。使用48kHz采样频率,每个箱与0.02ms相对应。
然而,存在ACF具有不与有音高的声音相对应的峰的情况。现有方法或者不够鲁棒并将关于非音高的声音错误触发,或者它们很复杂并且难于实现。
发明内容
本教导的目的在于:通过实现有语音的话音的鲁棒检测来解决或至少减轻上述问题的至少一个。
在权利要求中阐述了本发明示例的各个方面。
根据第一方面,提供了一种用于检测音频信号中的有语音的话音的方法。所述方法包括:计算输入音频信号的一部分的自相关函数ACF,并检测确定范围内所述自相关函数的最高峰。确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第二方面,提供了一种装置,其中所述装置包括:处理器和存储器,所述存储器存储指令,当由处理器执行时,所述指令使所述装置:计算输入音频信号的一部分的自相关函数ACF;检测确定范围内所述自相关函数的最高峰;确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第三方面,提供了一种计算机程序,包括计算机可读代码单元,当在装置上运行时,所述计算机可读代码单元使所述装置:计算输入音频信号的一部分的自相关函数ACF;检测确定范围内所述自相关函数的最高峰;确定所述峰的峰宽和峰高;以及基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
根据第四方面,一种计算机程序产品,包括存储了根据上述第三方面的计算机程序的计算机可读介质。
根据第五方面,提供了一种用于检测音频信号中的有语音的话音的检测器。所述检测器包括:ACF计算模块,被配置为计算输入音频信号的一部分的ACF;峰检测模块,被配置为检测预定范围内ACF的最高峰;以及峰高和峰宽确定模块,被配置为确定所检测到的最高峰的峰宽和峰高。所述检测器还包括:判定模块,被配置为基于所述峰宽和所述峰高,判定输入音频信号的一段是否包括有语音的话音。
附图说明
为了更全面理解本发明的示例实施例,现在结合附图做出对于以下描述的参考,其中:
图1示出了话音信号ACF的典型示例。
图2a示出了键盘敲击的ACF的示例。
图2b示出了男性语音的有语音的部分的ACF的示例。
图3示出了基于峰高的有语音的话音检测的示例。
图4示出了ACF峰宽的示例。
图5是用于有语音的话音检测的方法的流程图。
图6示出了ACF峰宽的计算的示例。
图7是判定方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞典爱立信有限公司,未经瑞典爱立信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580002145.8/2.html,转载请声明来源钻瓜专利网。