[发明专利]一种可调噪声抑制深度的神经网络语音增强方法在审
申请号: | 202210018367.0 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114387962A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 谢福仕;欧阳康;郑能恒 | 申请(专利权)人: | 深圳大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/02;G10L15/02;G06N3/08 |
代理公司: | 深圳尚业知识产权代理事务所(普通合伙) 44503 | 代理人: | 杨勇 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可调 噪声 抑制 深度 神经网络 语音 增强 方法 | ||
1.一种可调噪声抑制深度的神经网络语音增强方法,其特征在于,包括:
将理想数据的带噪语音进行特征提取的结果作为网络模型的输入进行训练,网络输出目标为目标增益函数,优化网络输出的增益函数;
在网络模型训练中重构损失函数,对网络模型进行优化,使网络模型从带噪语音特征中映射出最优增益函数。
2.如权利要求1所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,所述理想数据的带噪语音由已知的干净语音和噪声按人为设定的不同信噪比进行混合。
3.如权利要求1所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,所述网络模型为基于TFM的深度神经网络,基于TFM的深度神经网络语音增强的方法为:利用深度神经网络从带噪语音特征映射出具有降噪效果的TFM增益函数与带噪语音幅度谱|Y(t,f)|相乘后得到增强语音幅度谱
4.如权利要求3所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,优化网络输出的增益函数的方法为:
网络模型的输出目标为理想情况下的TFM增益函数,利用均方误差作为损失函数计算网络输出与输出目标的差异,通过误差反向传播算法对网络模型进行优化,使网络模型从带噪语音特征中映射出最优TFM增益函数。
5.如权利要求4所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,优化网络输出的增益函数的方法为:
利用均方误差作为损失函数时,典型基于TFM的神经网络语音增强算法的第一损失函数Loss1表示为:
式中,为网络输出的TFM增益函数,G(t,f)为目标增益函数;其中,目标增益函数包括有幅度谱掩膜和理想比率掩膜的目标增益函数;有幅度谱掩膜的目标增益函数表示为:
理想比率掩膜的目标增益函数表示为:
式中,Y(t,f)=X(t,f)+D(t,f),Y(t,f)、X(t,f)和D(t,f)分别表示带噪语音、干净语音和噪声的短时傅里叶变换的结果;β为可调节的参数,β设置为0.5或1。
6.如权利要求4所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,优化网络输出的增益函数的方法为:
将网络输出的TFM增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算损失函数,使网络模型映射出最优干净语音幅度谱下的TFM增益函数。
7.如权利要求6所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,将网络输出的TFM增益函数与带噪语音幅度谱相乘后的结果与干净语音幅度谱计算的典型基于TFM的神经网络语音增强算法的第二损失函数Loss2表示为:
8.如权利要求4所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,在降噪阶段,将带噪语音数据进行特征提取的结果作为已训练的网络模型输入,映射出最优的TFM增益函数增强语音幅度谱表示为:
利用带噪语音的相位信息进行时域语音波形重构,增强语音的时域信号表示为:
式中,ISTFT[·]为逆短时傅里叶变换。
9.如权利要求5所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,所述可调噪声抑制深度的神经网络语音增强方法中还包括可控降噪深度的损失函数,可控降噪深度的损失函数为第四损失函数Loss4,计算公式表示为:
Loss4=αLoss1+(1-α)Loss3
其中,α为降噪深度控制因子,Loss1为典型基于IFM的神经网络语音增强算法的第一损失函数,Loss3为噪声抑制模块的第三损失函数:
式中,|D(t,f)|为噪声幅度谱。
10.如权利要求9所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,所述噪声抑制模块的损失函数利用噪声幅度谱|D(t,f)|与网络输出相乘,结果为残留噪声。
11.如权利要求7所述的可调噪声抑制深度的神经网络语音增强方法,其特征在于,所述可调噪声抑制深度的神经网络语音增强方法中还包括第五损失函数Loss5,第五损失函数Loss5表示为:
Loss5=αLoss2+(1-α)Loss3
式中,Loss2为典型基于TFM的神经网络语音增强算法的第二损失函数,Loss3为噪声抑制模块的第三损失函数,并通过降噪深度控制因子α改变噪声抑制模块的噪声抑制深度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210018367.0/1.html,转载请声明来源钻瓜专利网。