[发明专利]一种基于深度压缩感知的语音增强方法有效
申请号: | 202110367869.X | 申请日: | 2021-04-06 |
公开(公告)号: | CN113129872B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 康峥;黄志华;赖惠成 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L21/0224;G10L25/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 830046 新疆维吾尔自治*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 压缩 感知 语音 增强 方法 | ||
1.一种基于深度压缩感知的语音增强方法,其特征在于,包括以下步骤:
步骤1:预处理训练数据:对训练数据进行预加重,配对以及分帧处理,获取时域语音信号序列;
步骤2:构建模型并训练:构建基于深度压缩感知的语音增强模型SEDCS,设定合适的误差函数,将处理后的训练集语音信号输入模型进行联合训练,将训练完成的SEDCS模型部署到服务器中;
步骤3:测试模型:将带噪语音测试集进行预处理,利用训练完成的SEDCS模型对其去噪,并重构获得去噪后语音信号,完成语音增强任务;
步骤4:评估模型:采用多种评价指标对增强后语音信号的质量与可懂度进行评估;
所述步骤2的SEDCS模型由两个基于卷积神经网络的模型构建,分别是生成模型
生成模型
测量模型
2.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述的构成SEDCS模型的两个模型通过联合训练方式进行训练,在训练之前首先对训练集带噪语音进行优化,优化方式采用梯度下降法,目标函数为:
其中表示优化后的带噪语音信号,表示干净语音信号,表示带噪语音信号,表示带噪语音信号通过生成模型后获得的生成语音信号,和表示语音信号通过测量模型后获得观测信号,为权系数。
3.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,将优化后的带噪语音信号输入生成模型
其中表示添加的L1正则化项的权重因子,表示干净语音信号,表示重构语音信号,基于深度压缩感知的语音增强方法的目标为,即最小化模型总体目标函数。
4.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3包括以下子步骤:
步骤3-1:预处理测试数据,对测试集的带噪语音信号进行预加重以及分帧处理,预加重因子及每帧尺寸与处理训练数据时的相同;
步骤3-2:增强语音:将预处理后的带噪语音信号输入训练完成的SEDCS模型,模型对每一小段语音进行去噪,并将其按照原始干净语音信号的顺序进行拼接重构,获得去噪后语音信号;
步骤3-3:保存结果:对去噪后语音信号进行去加重,并将最终获得的去噪语音信号保存在指定位置。
5.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤1和步骤3的数据预处理过程中预加重因子设置为0.95,帧长设置为16384个采样点,帧叠设置为1/2,即运用大小为16384*1,滑动步幅为0.5的窗对语音信号进行采样分帧,不足则补0。
6.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤3中利用训练完成的模型进行语音去噪处理时,不同带噪语音测试数据的噪声条件不同,应对未知噪声条件时模型可完成语音增强任务。
7.根据权利要求1所述的一种基于深度压缩感知的语音增强方法,其特征在于,所述步骤4中评价指标包括:用于评价语音可懂度的指标:STOI;用于评价语音质量的指标:PESQ、CSIG、CBAK、COVL以及SSNR。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367869.X/1.html,转载请声明来源钻瓜专利网。