[发明专利]一种复杂噪声场景下的实时语音段落追踪方法有效
申请号: | 202010029721.0 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111261197B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 马翼平;张玮 | 申请(专利权)人: | 中航华东光电(上海)有限公司 |
主分类号: | G10L25/84 | 分类号: | G10L25/84;G10L25/27;G10L25/45;G10L25/21;G10L25/93;G10L21/0216 |
代理公司: | 上海乐泓专利代理事务所(普通合伙) 31385 | 代理人: | 张雪 |
地址: | 201114 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 噪声 场景 实时 语音 段落 追踪 方法 | ||
本发明公开了一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:A、预处理;B、计算输入音频帧的离散傅里叶变换系数,C、假设前帧为噪声帧,计算初始噪声的功率,即计算傅里叶变换幅度谱的算术平均值;假设帧后的数据为带噪信号,计算带噪信号的功率;D、计算后验信噪比;E、计算先验信噪比;F、语音激活检测;G、噪声谱更新;H、计算增益系数,先利用语段之间的段落噪声估计场景中平稳噪声的频谱属性,然后设计增益函数增强语音、抑制平稳噪声。在此基础上进行浊音检测,追踪语音段落,并屏蔽语段之间的各类噪声。这样可以提高语音检测的准确率,抑制语音段叠加的噪声,以及彻底屏蔽影响听感的语段间的噪声。
技术领域
本发明涉及语音处理技术领域,具体是一种复杂噪声场景下的实时语音段落追踪方法。
背景技术
语音信号处理领域的工程实现要面对复杂的噪声场景,包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时,背景噪声很容易被麦克风拾取,从听感方面对语音通信造成直接的影响,也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下,抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声,追踪得到纯净的语音段落,能够有效地提高语音通信的听感,提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理,而在复杂噪声场景下的语音段落追踪则是难点问题。
发明内容
本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
A、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
B、计算输入音频帧的离散傅里叶变换系数Yi(ωk),其中k为频谱分量的标号;
C、假设前L帧为噪声帧,计算初始噪声的功率,即计算傅里叶变换幅度谱的算术平均值;假设L帧后的数据为带噪信号,计算带噪信号的功率
D、计算后验信噪比
E、计算先验信噪比
F、语音激活检测;
G、噪声谱更新;
H、计算增益系数;
I、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
J、计算的自相关函数其中rt(τ)为延时为τ的自相关函数,N为窗长且1≤n≤N;
K、计算差分函数:计算:
L、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
M、清音补偿和噪声屏蔽。
作为本发明的进一步方案:所述步骤A中对输入的音频信号分帧并加窗,窗函数为汉明窗:
作为本发明的进一步方案:所述步骤F具体是:对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比求取激活语音检测的判决参数v,若v大于判决门限eta则判别为语音,若小于eta则判别为噪声,用来更新噪声谱。判决参数v的计算方法为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中航华东光电(上海)有限公司,未经中航华东光电(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010029721.0/2.html,转载请声明来源钻瓜专利网。