[发明专利]融合DSNet与EDSR网络的非平行多对多语音转换方法有效
| 申请号: | 202110772028.7 | 申请日: | 2021-07-08 |
| 公开(公告)号: | CN113643687B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 李燕萍;邱祥天;戴少梁 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L25/03;G10L25/24;G10L25/30;G10L21/007;G06N3/0464 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 210046 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 dsnet edsr 网络 平行 语音 转换 方法 | ||
本发明公开了一种融合DSNet与EDSR网络的非平行多对多语音转换方法,本方法包括训练阶段和转换阶段,训练过程不需要任何对齐过程,能够实现非平行文本条件下的多对多语音转换。训练阶段包括以下步骤:获取训练语料,训练语料由8名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的声学特征向量,将特征向量输入到转换网络中进行训练,转换网络包括生成器、鉴别器和分类器,生成器融合了DSNet与EDSR网络。本方法利用EDSR网络提升模型对语音频谱信息的提取能力,再通过DSNet网络将提取的频谱信息进行特征融合,从而较好地提升了转换语音的音质和个性相似度,实现高质量的多对多语音转换。
技术领域
本发明涉及语音转换技术领域,具体涉及到一种融合DSNet与EDSR网络的非平行多对多语音转换方法。
背景技术
语音转换是语音信号处理领域中重要的研究分支,研究该技术有着重要的理论价值和应用前景。语音转换是一种将语音中源说话人的身份特征转换为目标说话人的身份特征,同时保证语音中的语义特征不变的技术。简言之,将一个人的一段语音转换成听起来像是由另一个指定说话人所发出的同一段语音。一个典型的语音转换系统可以分为两个阶段:训练阶段、转换阶段。在训练阶段,需要先进行语音分析和特征计算从而将语音波形信号编码成可以进行处理的语音特征。在传统的语音转换方法中还需要对源和目标说话人的语音进行时间对齐,从而使得具有相同音素内容的语音之间产生关联性,并且用这些对齐后的语音特征来训练转换模型,而在非平行语音转换方法中不需要执行时间对齐操作。在转换阶段,先计算出待转换语音的特征,用训练阶段训练好的转换模型进行特征转换,然后用语音合成器将转换后的特征合成为语音信号。
语音转换技术经过多年的研究,已经涌现了很多经典的转换方法。其中,基于高斯混合模型(GMM)的方法得到了广泛的研究,该方法利用统计参数模型来变换频谱特征;此外,神经网络也因其优异的性能而被应用于语音转换中,如递归神经网络(RNN)和深度神经网络(DNN)。包括上述提到的许多语音转换方法被归类为平行文本条件下的转换方法,这需要精确对齐的源语音和目标语音的并行数据。在一般情况下,收集平行文本语料可能是一个昂贵和耗时的过程,即使能够收集平行文本语料,我们通常需要执行自动时间对齐程序,当源语音和目标语音之间相差很大时,可能会导致无法对齐。因此,无论从语音转换系统的通用性还是实用性来考虑,研究非平行文本条件下的语音转换技术具有更大的应用价值和现实意义。
在语音转换领域的研究中,现有的非平行文本条件下的语音转换方法取得了很大进展,主要包括C-VAE(Conditional Variational Auto-Encoder,基于条件变分自编码器)的方法、Cycle-GAN(Cycle-Consistent Adversarial Networks,基于循环一致对抗网络)的方法和STARGAN(Star Generative Adversarial Networks,基于星型生成对抗网络)的方法等,这些转换方法能够规避对平行文本的依赖,实现非平行文本条件下的转换。基于C-VAE模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,其中编码器实现语音的语义信息和说话人个性信息的分离,解码器通过语义和说话人身份标签来实现语音的重构,从而可以解除对平行文本的依赖。但是C-VAE模型改进的理想假设认为观察到的数据通常是服从高斯分布的,从而使解码器的输出语音过度平滑,导致转换语音的质量不好。以往的研究已经证明,基于Cycle-GAN模型的语音转换方法能够产生更真实的语音。该模型可以同时学习声学特征的正映射和逆映射,主要是通过利用对抗损失和循环一致性损失来实现,可以有效地缓解过平滑问题,改善转换语音质量,虽然Cycle-GAN模型被证明效果相当好,但是该模型的局限性是它被设计为学习两个域之间的映射,只能实现一对一转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110772028.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:感测装置
- 下一篇:文档检测方法、装置、设备和存储介质





