[发明专利]非平行文本条件下基于文本编码器的多对多语音转换方法有效

专利信息
申请号: 201811406355.5 申请日: 2018-11-23
公开(公告)号: CN109326283B 公开(公告)日: 2021-01-26
发明(设计)人: 李燕萍;石杨;张燕 申请(专利权)人: 南京邮电大学
主分类号: G10L15/06 分类号: G10L15/06;G10L25/18;G10L25/30;G10L21/003;G10L17/04;G10L13/02;G06F40/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种非平行文本条件下基于文本编码器的多对多语音转换方法,包括了训练部分和转换部分,使用了条件变分自编码器和生成对抗网络(VAWGAN)与文本编码器(Text‑Encoder)相结合来实现语音转换系统,在VAWGAN中加入代表语义的句子嵌入,能够较好地提升转换后语音的语音质量和个性相似度,实现高质量的语音转换。此外,本方法解除了对平行文本的依赖,实现了非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。此外,本方法可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多说话人对多说话人转换。本方法在电影配音、语音翻译、语音合成等领域有较好的应用前景。
搜索关键词: 平行 文本 条件下 基于 编码器 语音 转换 方法
【主权项】:
1.一种非平行文本条件下基于文本编码器的多对多语音转换方法,其特征包括训练阶段和转换阶段,其中所述训练阶段包括以下步骤:(1.1)获取由多名说话人的语料组成的训练语料,包含源说话人和目标说话人;(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频logf0;(1.3)通过fasttext框架将训练语料的语义内容编码为句子嵌入zp;(1.4)将所述频谱包络特征x与句子嵌入zp输入文本编码器进行训练,训练过程中使文本编码器的损失函数尽量小,直至设置的迭代次数,得到训练好的文本编码器;(1.5)将训练语料的句子嵌入zp、频谱包络特征x、说话人标签y输入VAWGAN进行训练,VAWGAN网络模型由编码器、生成器和鉴别器组成,训练过程使生成器的损失函数尽量小,使鉴别器的损失函数尽量大,直至设置的迭代次数,得到训练好的VAWGAN网络;(1.6)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;所述转换阶段包括以下步骤:(2.1)将待转换语料中源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征x、非周期性特征、对数基频logf0;(2.2)将上述频谱包络特征x,输入步骤(1.4)中训练好的文本编码器,输出得到文本编码器预测的源说话人每条语句的句子嵌入(2.3)将上述句子嵌入源说话人频谱包络特征x、目标说话人标签特征y输入步骤(1.5)中训练好的VAWGAN网络,从而重构出目标说话人频谱包络特征x′;(2.4)通过步骤(1.6)得到的基频转换函数,将步骤(2.1)中提取出的源说话人对数基频logf0转换为目标说话人的对数基频logf0′;(2.5)将步骤(2.3)中得到的频谱包络特征x′、(2.4)中得到的对数基频logf0′和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型,合成得到转换后的说话人语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811406355.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top