[发明专利]激活音检测及用于激活音检测的方法和装置有效
申请号: | 201210570563.5 | 申请日: | 2012-12-25 |
公开(公告)号: | CN103903634B | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 江东平;袁浩;朱长宝 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G10L25/93 | 分类号: | G10L25/93;G10L21/0208 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 田红娟;龙洪 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 激活 检测 用于 方法 装置 | ||
1.一种激活音检测VAD方法,其特征在于,该方法包括:
获得当前帧的子带信号及频谱幅值;
根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值;根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值;
根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数;
根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的调性标志;
根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果;
其中,所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值;
所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值,或该比值进行平滑滤波得到的值;
所述时域稳定度特征参数是能量幅值叠加值的方差和能量幅值叠加值平方的期望的比值,或该比值乘上一个系数;
所述谱平坦度特征参数是多个子带的频谱幅值的几何平均数和算术平均数的比值,或该比值乘上一个系数;
所述调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到,或继续对该相关值进行平滑滤波得到。
2.如权利要求1所述的方法,其特征在于,在得到VAD判决结果之前或之后,该方法还包括:
根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的初始背景噪声标识;
在得到VAD判决结果之后,该方法还包括:根据当前帧VAD的判决结果、调性特征参数、信噪比参数、调性标志、时域稳定度特征参数对初始背景噪声标识进行修正;
根据背景噪声标识的修正值和当前帧的帧能量参数、前一帧的全带背景噪声能量,得到当前帧的子带背景噪声能量和全带背景噪声能量;
所述当前帧的背景噪声能量用于下一帧信噪比参数计算。
3.如权利要求1所述的方法,其特征在于,
根据调性标志、信噪比参数、谱重心特征参数、帧能量参数计算得到VAD判决结果,计算步骤如下:
a,通过前一帧计算得到的平均长时激活音信号能量和平均长时背景噪声能量的比值,计算得到长时信噪比;
b,计算最近若干帧的全带信噪比SNR2的平均值,得到平均全带信噪比SNR2_lt_ave;
c,根据谱重心特征参数、长时信噪比lt_snr、前面连续激活音帧个数continuous_speech_num和前面连续噪声帧个数continuous_noise_num得到VAD判决的信噪比门限snr_thr;
d,根据VAD的判决门限snr_thr和信噪比参数计算得到初始的VAD判决,其中,所述信噪比参数包括子带平均信噪比SNR1和全带信噪比SNR2;
e,根据调性标志、平均全带信噪比SNR2_lt_ave、谱重心特征参数和长时信噪比lt_snr对VAD的判决结果进行修正;
f,根据前面若干帧的判决结果、长时信噪比lt_snr、平均全带信噪比SNR2_lt_ave、当前帧的信噪比参数和当前帧的VAD判决结果,修正激活音保持帧数;
g,根据当前帧的判决结果和激活音保持帧数num_speech_hangover添加激活音保持,得到当前帧的VAD判决结果。
4.如权利要求3所述的方法,其特征在于:步骤d之后,还包括根据VAD初始判决结果,计算平均长时激活音信号能量Efg;步骤g之后,还包括,根据VAD判决结果计算平均长时背景噪声能量Ebg,计算值用于下一帧VAD判决。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210570563.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:双管式飞灰取样装置
- 下一篇:一种陶瓷化硅橡胶及制备和测试方法