[发明专利]一种复杂噪声场景下的实时语音段落追踪方法有效

申请号：	202010029721.0	申请日：	2020-01-13
公开（公告）号：	CN111261197B	公开（公告）日：	2022-11-25
发明（设计）人：	马翼平;张玮	申请（专利权）人：	中航华东光电（上海）有限公司
主分类号：	G10L25/84	分类号：	G10L25/84;G10L25/27;G10L25/45;G10L25/21;G10L25/93;G10L21/0216
代理公司：	上海乐泓专利代理事务所(普通合伙) 31385	代理人：	张雪
地址：	201114 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种复杂噪声场景实时语音段落追踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种复杂噪声场景下的实时语音段落追踪方法，包含以下步骤：A、预处理；B、计算输入音频帧的离散傅里叶变换系数，C、假设前帧为噪声帧，计算初始噪声的功率，即计算傅里叶变换幅度谱的算术平均值；假设帧后的数据为带噪信号，计算带噪信号的功率；D、计算后验信噪比；E、计算先验信噪比；F、语音激活检测；G、噪声谱更新；H、计算增益系数，先利用语段之间的段落噪声估计场景中平稳噪声的频谱属性，然后设计增益函数增强语音、抑制平稳噪声。在此基础上进行浊音检测，追踪语音段落，并屏蔽语段之间的各类噪声。这样可以提高语音检测的准确率，抑制语音段叠加的噪声，以及彻底屏蔽影响听感的语段间的噪声。

技术领域

本发明涉及语音处理技术领域，具体是一种复杂噪声场景下的实时语音段落追踪方法。

背景技术

语音信号处理领域的工程实现要面对复杂的噪声场景，包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时，背景噪声很容易被麦克风拾取，从听感方面对语音通信造成直接的影响，也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下，抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声，追踪得到纯净的语音段落，能够有效地提高语音通信的听感，提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理，而在复杂噪声场景下的语音段落追踪则是难点问题。

发明内容

本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种复杂噪声场景下的实时语音段落追踪方法，其特征在于，包含以下步骤：

A、预处理：对输入的音频信号分帧并加窗；取16ms数据为一帧x_i(n)，其中i为帧号；

B、计算输入音频帧的离散傅里叶变换系数Y_i(ω_k)，其中k为频谱分量的标号；

C、假设前L帧为噪声帧，计算初始噪声的功率，即计算傅里叶变换幅度谱的算术平均值；假设L帧后的数据为带噪信号，计算带噪信号的功率

D、计算后验信噪比

E、计算先验信噪比

F、语音激活检测；

G、噪声谱更新；

H、计算增益系数；