[发明专利]语音降噪模型的训练方法和装置及语音降噪方法和装置在审
申请号: | 202111368043.1 | 申请日: | 2021-11-18 |
公开(公告)号: | CN113990343A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 张旭;郑羲光;韩润强;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L25/30;G10K11/175;H04L12/18;H04N7/15 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王兆赓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模型 训练 方法 装置 | ||
1.一种语音降噪模型的训练方法,其特征在于,包括:
获取含噪语音信号样本,其中,所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到,每条原始语音信号具有距离值,该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离;
获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号,其中,所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号;所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值,得到每条原始语音信号的保留因子,并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到;
将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型,得到估计的降噪语音信号的幅度谱;
基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值;
基于计算出的损失函数的值调整所述语音降噪模型的参数,以训练所述语音降噪模型。
2.如权利要求1所述的训练方法,其特征在于,所述通过基于每条原始语音信号的距离值以及预设第一保留距离值,得到每条原始语音信号的保留因子,包括:
根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果,确定每条原始语音信号的保留因子。
3.如权利要求2所述的训练方法,其特征在于,所述根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果,确定每条原始语音信号的保留因子,包括:
将距离值等于或小于所述预设第一保留距离值的原始语音信号的保留因子确定为1;
将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1,其中,所述距离值越大,保留因子越小。
4.如权利要求3所述的训练方法,其特征在于,所述将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1,包括:
将距离值在所述预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值,其中,所述距离值越大,保留因子越小,所述预设第二保留距离值比所述预设第一保留距离值大预定距离;
将距离值在所述预设第二保留距离值以上的原始语音信号的保留因子确定为0。
5.一种语音降噪方法,其特征在于,所述语音降噪方法是通过如权利要求1至4中任意一项权利要求所述的训练方法训练得到的语音降噪模型来执行,其中,所述语音降噪方法包括:
在音视频会议场景中用于收集待降噪语音信号的目标麦克风处获取所述待降噪语音信号;
获取所述预设第一保留距离值;
将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型,得到估计的降噪语音信号的幅度谱;
基于所述估计的降噪语音信号的幅度谱,得到估计的降噪语音信号;
将所述估计的降噪语音信号输入所述目标麦克风。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111368043.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示屏支撑结构及电子设备
- 下一篇:一种可湿涂装的防结露隔热涂料及其制备方法