[发明专利]一种抑制混叠伪影的方法及装置在审
申请号: | 202310073162.7 | 申请日: | 2023-01-13 |
公开(公告)号: | CN116092516A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 赵光赢;尚增强;王丽;黎塔 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27;G10L25/18;G10L25/45;G10L25/48;G10L21/0208 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抑制 混叠伪影 方法 装置 | ||
本发明涉及一种抑制混叠伪影的方法,所述方法具体包括:将输入生成器的声学特征xsubgt;0/subgt;过普通卷积后的特征xsubgt;1/subgt;,输入第一层上采样模块;自第一层上采样模块起,对输入第i‑1层上采样模块的特征xsubgt;i‑1/subgt;执行步骤:对特征xsubgt;i‑1/subgt;上采样rsubgt;i‑1/subgt;倍,得到特征将特征过低通滤波器,得到抗混叠特征将声学特征xsubgt;0/subgt;上采样倍,得到的特征过普通卷积生成高频特征nsubgt;i/subgt;;将生成的高频特征nsubgt;i/subgt;和抗混叠特征相加后,过非线性残差模块非线性激活生成xsubgt;i/subgt;并输出。还涉及了装置,包括:第一普通卷积模块和至少两层上采样模块。本发明的方法和装置,能够在保持生成高质量语音的同时,避免混叠伪影。
技术领域
本发明涉及语音生成技术领域,尤其是一种抑制混叠伪影的方法及装置。
背景技术
近年来,神经网络生成器在很大程度上提升了语音合成的质量,这在信号处理和深度学习领域都有大量的研究。自回归声码器WaveNet、WaveRNN在音质方面有明显的提高,但由于自回归结构的声码器生成音频根据历史信息一步一步进行的,严重影响推理速度。因此,出现了ParallelWaveNet、ClariNet、WaveGlow等大量非自回归声码器加速推理过程。而WaveGrad、DiffWave等概率扩散声码器使用基于声学特征的可逆神经网络将高斯噪声转换为高质量语音波形。
得益于对抗性训练,基于生成对抗网络(Generative Adversarial Networks,GAN)的声码器可以并行生成高质量的语音,在语音合成中得到广泛应用。在传统管道语音合成(Text-to-Speech,TTS)系统中,常用的声码器MelGAN、VocGAN、HiFiGAN通常以特定的声学特征作为输入;而像VITS这种完全端到端的TTS系统中,声码器模块直接将声学分布转换为语音波形。由于声学特征、声学分布和语音波形之间在时间分辨率上存在较大的差异,因此在语音生成中通常使用上采样模块逐渐对输入序列进行扩展。在声码器中,通常使用转置卷积(transposed convolution,transposed CNN)、子像素卷积(subpixel CNN)、最近邻插值(nearest neighbor interpolation)等结构实现上采样。
基于GAN的波形生成模型包含一个生成器(Generator)和一个鉴别器(Discriminator),通过两个网络之间的博弈来学习数据的分布。生成器从声学特征或声学特征分布的采样中学习生成语音波形。MelGAN、VocGAN和HiFi-GAN是将梅尔频谱作为输入,而在VITS中,生成器结合了变分推断和标准化流,从先验/后验分布中随机采样中生成语音波形。鉴别器的输入为真实的语音序列或生成器生成的语音序列,其目的是将生成语音和真实语音区分开,而生成网络的目的则是生成鉴别器无法区分的语音序列。生成器网络和鉴别网络交替优化,最终达到纳什均衡。
HiFi-GAN和VITS是两种典型的基于GAN的模型,且广泛的用于语音合成的产品中。如图1所示,两种模型架构使用了相同的上采样模块,从帧级特征表示逐渐上采样,直至生成自然语音。
生成器采用了残差卷积网络。使用transposed CNN进行上采样,每个transposedCNN后接一个多感受野融合模块(multi-receptive field fusion module,MRF),MRF的输出为多个残差模块的输出之和,每个残差模块使用不同的核尺寸(kernelsize)和膨胀率(dilation rates),从而构成多样的“感受野”模式。鉴别器使用了多周期鉴别器(multi-period discriminators,MPD)和多尺度鉴别器(multi-scale discriminators,MSD)来评估不同维度的音频样本。损失函数主要有GAN的对抗损失,Mel-spectrogram的重建损失和特征匹配损失组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310073162.7/2.html,转载请声明来源钻瓜专利网。