[发明专利]一种基于稀疏连续约束的生成对抗网络语音增强方法在审
申请号: | 201911402478.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113066483A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 孙成立;袁丛琳;邹强;洪依 | 申请(专利权)人: | 南昌航空大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L15/26;G10L21/0224;G10L21/0232;G10L21/045;G10L25/45 |
代理公司: | 南昌洪达专利事务所 36111 | 代理人: | 黄文亮 |
地址: | 330000 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 连续 约束 生成 对抗 网络 语音 增强 方法 | ||
1.一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述方法包括以下步骤,
1)、数据收集和分类;
2)、语音分帧加窗;
3)、幅度压缩;
4)、输入基于稀疏连续约束的生成对抗网络训练;
5)、幅度解压缩;
6)、合成增强语音。
2.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述步骤1)中数据收集和分类具体包括以下步骤:
(1.1)数据收集:采用NOIZEUS库的语音作为纯净语音,以此作为纯净语音数据集;采用NOISEX~92噪声库中的噪声作为噪声信号;
(1.2)数据分类:每种噪声分别以-5dB,0dB,5dB,10dB和15dB的信噪比叠加到纯净语音,以此作为含噪语音数据集。
3.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述步骤2)语音分帧加窗是指采用长度为512,帧移为50%的汉明窗对含噪语音分帧,短时傅里叶变换的点数为1024。
4.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述步骤3)幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩,把取值范围限制在[-1,1],双曲正切函数定义为
5.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于,所述步骤4)输入基于稀疏连续约束的生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型,具体如下:
(5.1)网络模型初始化:初始化生成器和判别器;生成器G通过卷积层和反卷积层实现,激活函数选择PReLU;判别器D通过卷积层实现,激活函数选择LeakyReLU;采用“same”的补零策略,并采用BatchNormalization对每一层进行归一化;优化器选择RMSprop,学习率为0.0002;
(5.2)训练判别器:对步骤3)得到的纯净语音样本压缩复数谱训练,使得D(Xm)趋近1;对步骤3)得到的含噪语音样本压缩复数谱训练,使得增强语音复数谱且趋近0;
(5.3)训练生成器:对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练,冻结判别器,训练生成器,使得判别器D对增强语音复数谱且趋近1;
(5.4)输出训练模型:重复步骤(5.1)~(5.3),直到模型收敛为止,输出生成器G和判别器D。
6.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述步骤5)幅度解压缩是指使用反双曲正切函数对增强复数谱串接向量进行幅度解压缩,反双曲正切函数定义为
7.根据权利要求1所述的一种基于稀疏连续约束的生成对抗网络语音增强方法,其特征在于:所述步骤6)合成增强语音是指将增强语音复数谱进行逆短时傅里叶变换,得到降噪语音时域波形的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌航空大学,未经南昌航空大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911402478.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:换热组件
- 下一篇:一种超宽环温空气源热泵系统及控制方法