[发明专利]基于DenseNet STARGAN的多对多说话人转换方法在审

申请号：	202010179723.8	申请日：	2020-03-16
公开（公告）号：	CN111833855A	公开（公告）日：	2020-10-27
发明（设计）人：	李燕萍;袁昌龙;徐玲俐	申请（专利权）人：	南京邮电大学
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/16;G10L15/18;G10L15/06
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	刘文闻
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 densenet stargan 说话转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于DenseNet STARGAN的多对多说话人转换方法，采用STARGAN与DenseNet相结合来实现语音转换系统，并将GELU激活函数引入STARGAN中。一方面利用DenseNet来解决训练过程中网络退化问题，有助于训练过程中梯度的反向传播，提升深层网络训练效率，另一方面，使用GELU激活函数替换掉常规使用的ReLU激活函数，具有更强的非线性表示能力，有效解决了ReLU在负区间处于失活状态的缺点，进一步缓解了训练过程中网络退化的问题，增强了STARGAN模型的表征能力，很好地改善了转换后语音的个性相似度和语音质量，实现了一种高质量的多说话人到多说话人的语音转换方法，在跨语种语音转换、电影配音、语音翻译等领域有良好的应用前景。

技术领域

本发明涉及一种多对多说话人转换方法，特别是涉及一种基于DenseNet STARGAN的多对多说话人转换方法。

背景技术

语音转换是语音信号处理领域的重要研究分支，是在语音分析、合成和说话人识别的研究基础上发展与延伸的。语音转换的目标是改变源说话人的语音个性特征，使之具有目标说话人的语音个性特征，同时保留语义信息，也就是使源说话人的语音经过转换后听起来像是目标说话人的语音。

语音转换的最初阶段主要是平行文本下的语音转换，平行文本要求源说话人和目标说话人需要发出语音内容、语音时长相同的句子，并且发音节奏和情绪等尽量一致，但是收集这些数据很耗时并且即使获得这些平行数据，仍然很难解决问题，因为大多数语音转换方法依赖数据准确的时间对齐，而对齐过程不可避免会引入误差，所以训练时要求平行文本会成为语音转换应用的严重制约。此外在同声传译、医疗辅助患者语音转换等实际应用中也无法获取平行语音。因此，无论从语音转换系统的通用性还是实用性来考虑，非平行文本条件下的语音转换方法的研究具有极大的实际意义和应用价值。

现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络(Cycle-Consistent Adversarial Networks，Cycle-GAN)的方法，基于条件变分自编码器(Conditional Variational Auto-Encoder，C-VAE)的方法以及基于Disco-GAN(Discovercross-domain relations with Generative Adversarial Networks)的方法等。基于Disco-GAN模型的语音转换方法，采用两个生成器与三个判别器进行计算损失，较传统GAN而言，通过增加一个风格判别器提取语音个性特征来提高语音质量，但其只能实现一对一的语音转换。基于C-VAE模型的语音转换方法，直接利用说话人的身份标签建立语音转换系统，其中编码器对语音实现语义和个性信息的分离，解码器通过语义和说话人身份标签来实现语音的重构，从而可以解除对平行文本的依赖，但是由于C-VAE基于理想假设，认为观察到的数据通常遵循高斯分布，导致解码器的输出语音过度平滑，转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失，同时学习声学特征的正映射和逆映射，可以有效解决过平滑问题，改善转换语音质量，但是Cycle-GAN只能实现一对一的语音转换，即源说话人与目标说话人之间的转换，无法实现多说话人之间的互相转换。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010179723.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于DenseNet STARGAN的多对多说话人转换方法在审

专利文献下载