[发明专利]非平行文本条件下基于VAE与i-vector的多对多语音转换系统有效
申请号: | 201811597896.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109584893B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 李燕萍;许吉良;张燕 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/18;G10L25/21;G10L25/30;G10L13/02 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。 | ||
搜索关键词: | 平行 文本 条件下 基于 vae vector 语音 转换 系统 | ||
【主权项】:
1.非平行文本条件下基于VAE与i‑vector的多对多语音转换系统,其特征在于,包括如下步骤:S1、提取每个说话人的语句的频谱特征,谐波包络特征和对数基频;S2、提取每个说话人的身份特征向量i‑vector;S3、以S1中提取的频谱特征、S2中提取的身份特征向量和说话人标签作为VAE模型的输入数据,迭代训练VAE模型,得到说话人语音转换模型;S4、提取每个源说话人的语句的频谱特征,谐波包络特征和对数基频;S5、以源说话人的频谱特征、目标说话人的标签及目标说话人的身份特征向量作为训练好的语音转换模型的输入数据,获取语音转换模型的输出即为目标说话人的重构频谱特征信息;S6、源说话人语句的特征中对数基频通过对数线性域变换转换为目标说话人的基频;S7、将转换得到的目标说话人频谱特征信息,S4中源说话人的谐波包络特征和目标说话人的基频输入语音合成模型获取目标说话人语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811597896.0/,转载请声明来源钻瓜专利网。