[发明专利]非平行文本条件下基于VAE与i-vector的多对多语音转换系统有效
申请号: | 201811597896.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109584893B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 李燕萍;许吉良;张燕 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/18;G10L25/21;G10L25/30;G10L13/02 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 文本 条件下 基于 vae vector 语音 转换 系统 | ||
本发明提供一种非平行文本条件下基于VAE与身份特征向量(i‑vector)的多对多语音转换系统,在非平行语料条件下,基于变分自编码模型(Variational Autoencoding,VAE)实现语音转换,其中说话人的表征加入了说话人身份特征i‑vector,能够有效地提升转换后语音的个性相似度。本发明的优点包括三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)i‑vector特征的引入能够丰富说话人身份信息,从而有效提高转换语音的个性相似度,改善转换性能。
技术领域
本发明属于信号处理技术领域,具体涉及一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统。
背景技术
语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,建立源语音和目标语音频谱特征之间的转换规则。
基于变分自编码器(VAE)模型的语音转换方法是直接利用说话人的身份标签建立语音转换的系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是由于one-hot特征仅仅是一个说话人的身份标签,而不携带有丰富的个性信息,因此基于one-hot特征的VAE模型得到的转换语音个性相似度不够理想,这也是该算法主要不足之一。
发明内容
本发明的目的在于:提供一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统,该系统能解除对平行文本的依赖,实现多说话人对多说话人的语音转换,有效提高系统的性能。
为了达到以上目的,提供一种非平行文本条件下基于VAE与i-vector的多对多语音转换系统,包括如下步骤,
S1、提取每个说话人的语句的频谱特征,谐波包络特征和对数基频;
S2、提取每个说话人的身份特征向量i-vector;
S3、以S1中提取的频谱特征、S2中提取的说话人身份特征向量和说话人标签作为VAE模型的输入数据,迭代训练VAE模型,训练得到说话人语音转换模型;
S4、提取每个源说话人的语句的频谱特征,谐波包络特征和对数基频;
S5、将源说话人频谱特征、目标说话人标签及目标说话人身份特征向量输入训练好的语音转换模型,获取转换后的模型输出即为目标说话人的语音频谱特征;
S6、源说话人语句特征中对数基频通过对数线型域变换转换为目标说话人的基频;
S7、将目标说话人语音频谱特征,S4中源说话人的谐波包络与目标说话人的基频输入语音合成模型获取目标说话人语音。
本发明的优选方案是:语句的特征包括每一帧的频谱包络sp′、语音对数基频logf0、谐波频谱包络ap,计算每一帧语音的能量en,并对频谱包络重新计算,即sp=log10sp′/en,语音采样频率为fs=16000。
优选地,所述频谱特征Xn为说话人的语音频谱特征sp,即Xn=[sp(n),n=1,...N]。
优选地,在模型训练阶段,将说话人频谱特征X输入VAE模型的Encoder端,并将Encoder输出的说话人无关的语义特征z、说话人标签和说话人身份特征向量输入VAE模型的Decoder端。其中,说话人标签和说话人身份特征向量作为Decoder训练的监督数据。
优选地,所述频谱特征Xn为说话人的语音频谱特征sp,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811597896.0/2.html,转载请声明来源钻瓜专利网。