[发明专利]语音降噪模型的训练方法和装置及语音降噪方法和装置在审
申请号: | 202111368043.1 | 申请日: | 2021-11-18 |
公开(公告)号: | CN113990343A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 张旭;郑羲光;韩润强;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/30;G10K11/175;H04L12/18;H04N7/15 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王兆赓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模型 训练 方法 装置 | ||
本公开关于语音降噪模型的训练方法和装置及语音降噪方法和装置。训练方法包括:获取含噪语音信号样本,含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到,每条原始语音信号具有距离值,该距离值表示原始语音信号与目标麦克风位置之间的距离;获取预设第一保留距离值以及目标降噪语音信号,目标降噪语音信号是通过基于每条原始语音信号的距离值以及预设第一保留距离值计算得到;将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型,得到估计的降噪语音信号的幅度谱;基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱计算损失函数的值;基于计算出的损失函数的值训练语音降噪模型。
技术领域
本公开涉及音频技术领域,更具体地说,涉及一种语音降噪模型的训练方法和装置及语音降噪方法和装置。
背景技术
音频降噪通常是指将一段音频信号中的噪声部分去除掉或者削弱,得到期望音频信号的过程。一般意义上的音频降噪主要是指去除或削弱噪声得到期望信号。目前音频降噪的方式主要分为传统降噪算法和基于神经网络的降噪算法。传统降噪算法主要是指谱减法,维纳滤波法等算法,他们往往依赖于背景噪声的加性或者期望信号及噪声信号的统计特性,对于实际环境下出现的突发性噪声等意想不到的噪声类型,其性能往往无法满足实际的需求。因此考虑到噪声破坏的复杂性过程,基于神经网络的降噪算法迅速发展起来,在低信噪比、非平稳噪声等环境下展现出明显的优势。
在会议场景中,当远程会议时,通话双方往往受到各种环境噪声的干扰,因此音频降噪成为会议场景下提升通话质量和体验的重要技术。然而,现有的传统或者深度学习降噪技术,通常可抑制掉非语音的各种噪声,而对于远处传来的非期望语音的干扰无法起到抑制作用。
发明内容
本公开提供一种语音降噪模型的训练方法和装置及语音降噪方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种语音降噪模型的训练方法,包括:获取含噪语音信号样本,其中,所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到,每条原始语音信号具有距离值,该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离;获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号,其中,所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号,所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值,得到每条原始语音信号的保留因子,并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到;将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型,得到估计的降噪语音信号的幅度谱;基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值;基于计算出的损失函数的值调整所述语音降噪模型的参数,以训练所述语音降噪模型。
可选地,所述通过基于每条原始语音信号的距离值以及预设第一保留距离值,得到每条原始语音信号的保留因子,可包括:根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果,确定每条原始语音信号的保留因子。
可选地,所述根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果,确定每条原始语音信号的保留因子,可包括:将距离值等于或小于所述预设第一保留距离值的原始语音信号的保留因子确定为1;将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1,其中,所述距离值越大,保留因子越小。
可选地,所述将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1,可包括:将距离值在所述预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值,其中,所述距离值越大,保留因子越小,所述预设第二保留距离值比所述预设第一保留距离值大预定距离;将距离值在所述预设第二保留距离值以上的原始语音信号的保留因子确定为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111368043.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示屏支撑结构及电子设备
- 下一篇:一种可湿涂装的防结露隔热涂料及其制备方法