[发明专利]一种可调噪声抑制深度的神经网络语音增强方法在审

申请号：	202210018367.0	申请日：	2022-01-07
公开（公告）号：	CN114387962A	公开（公告）日：	2022-04-22
发明（设计）人：	谢福仕;欧阳康;郑能恒	申请（专利权）人：	深圳大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L21/02;G10L15/02;G06N3/08
代理公司：	深圳尚业知识产权代理事务所(普通合伙) 44503	代理人：	杨勇
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种可调噪声抑制深度神经网络语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音处理技术领域，具体涉及一种可调噪声抑制深度的神经网络语音增强方法。该方法包括：将理想数据的带噪语音进行特征提取的结果作为网络模型的输入进行训练，网络输出目标为目标增益函数，优化网络输出的增益函数；在网络模型训练中重构损失函数，对网络模型进行优化，使网络模型从带噪语音特征中映射出最优增益函数。本发明通过设置额外的噪声抑制模块解决了目前基于TMF的深度神经网络语音增强算法的噪声残留问题；噪声抑制模块可以在原有的增强效果上进一步提高语音质量，通过降噪深度调节因子，可以根据日常应用需求，调整合适的降噪深度。

技术领域

本发明涉及语音处理技术领域，具体涉及一种可调噪声抑制深度的神经网络语音增强方法。

背景技术

语音增强的目的是从带噪语音中提取目标语音，从而提高语音质量和语言清晰度。可靠的语音增强是当前各类智能语音系统保证其在复杂的实际应用场景下性能鲁棒性的关键前端技术。当前智能语音系统大都采用基于深度神经网络(Deep Neural Network,DNN)的语音增强方案。这其中，最典型的算法是基于时频掩膜(Time Frequency Mask,TFM)的增强方法。在基于TFM的深度神经网络语音增强中，给定一个特定的DNN架构，通过构造合适的训练损失函数，引导网络学习从输入的带噪语音特征中映射出最优的TFM增益函数，并将该增益函数与带噪语音的时频分量相乘，得到增强后的语音时频分量。因此，损失函数的构造是影响增强网络性能的关键因素之一。

当前常用的损失函数计算结构是将理想条件下的TFM增益函数作为网络输出目标，利用均方误差(Mean Square Error,MSE)作为损失函数对网络进行优化，使网络模型具有从输入的带噪语音特征映射出最优TFM增益函数的能力。该类算法的特点是实现过程较为简单，具有可观的语音增强效果，在训练过程中，语音成分的保留与噪声成分的抑制得到很好的权衡。但在该方法中存在两个问题：

1、在降噪过程中，噪声泛化性问题会导致噪声抑制效果不理想，尤其在低信噪比条件下，导致增强语音质量提升受限。

2、针对人耳感知的应用场景中，残留噪声的问题会更突出。通常希望在不影响语义理解的条件下具有更小的残留噪声。当前方法的残留噪声往往会分散感知者的注意力，导致沟通体验下降。

发明内容

为改善基于TFM的深度神经网络语音增强残留噪声问题，提高语音增强算法性能，本发明提供了一种可调噪声抑制深度的神经网络语音增强方法，提出一个新的损失函数计算架构，调整模型噪声抑制深度，以解决当前方法存在的残留噪声问题，以适应更多的应用场合，满足不同应用场景需求。

为实现上述目的，本发明实施例提供了如下的技术方案：

第一方面，在本发明提供的一个实施例中，提供了一种可调噪声抑制深度的神经网络语音增强方法，包括：

将理想数据的带噪语音进行特征提取的结果作为网络模型的输入进行训练，网络输出目标为目标增益函数，优化网络输出的增益函数；

在网络模型训练中重构损失函数，对网络模型进行优化，使网络模型从带噪语音特征中映射出最优增益函数。

在本发明提供的一些实施例中，所述理想数据的带噪语音由已知的干净语音和噪声按人为设定的不同信噪比进行混合。

在本发明提供的一些实施例中，所述网络模型为基于TFM的深度神经网络，基于TFM的深度神经网络语音增强的方法为：利用深度神经网络从带噪语音特征映射出具有降噪效果的TFM增益函数与带噪语音幅度谱|Y(t,f)|相乘后得到增强语音幅度谱

在本发明提供的一些实施例中，优化网络输出的增益函数的方法为：

网络模型的输出目标为理想情况下的TFM增益函数，利用均方误差作为损失函数计算网络输出与输出目标的差异，通过误差反向传播算法对网络模型进行优化，使网络模型从带噪语音特征中映射出最优TFM增益函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳大学，未经深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210018367.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种配置单双蓄热双燃烧系统的轧钢加热炉及其控制方法
下一篇：一种在线铁水罐废钢加入装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种可调噪声抑制深度的神经网络语音增强方法在审

专利文献下载