[发明专利]非平行文本条件下基于VAE与i-vector的多对多语音转换系统有效
申请号: | 201811597896.0 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109584893B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 李燕萍;许吉良;张燕 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L25/18;G10L25/21;G10L25/30;G10L13/02 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 文本 条件下 基于 vae vector 语音 转换 系统 | ||
1.非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,包括如下步骤:
S1、提取每个说话人的语句的频谱特征,谐波包络特征和对数基频;
S2、提取每个说话人的身份特征向量i-vector;
S3、以S1中提取的频谱特征、S2中提取的身份特征向量和说话人标签作为VAE模型的输入数据,迭代训练VAE模型,得到说话人语音转换模型;
S4、提取每个源说话人的语句的频谱特征,谐波包络特征和对数基频;
S5、以源说话人的频谱特征、目标说话人的标签及目标说话人的身份特征向量作为训练好的语音转换模型的输入数据,获取语音转换模型的输出即为目标说话人的重构频谱特征信息;
S6、源说话人语句的特征中对数基频通过对数线性域变换转换为目标说话人的基频;
S7、将转换得到的目标说话人频谱特征信息,S4中源说话人的谐波包络特征和目标说话人的基频输入语音合成模型获取目标说话人语音。
2.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,语句的特征包括每一帧的频谱特征sp′、对数基频logf0、谐波频谱包络ap,计算每一帧语音的能量en,并重新计算sp语音频谱特征,其中sp=log10sp′/en。
3.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述频谱特征Xn为说话人的语音频谱特征sp,即Xn=[sp(n),n=1,...N]。
4.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,将说话人语音特征X输入VAE模型的Encoder端,并将Encoder端输出的说话人无关的语义特征z结合说话人标签和说话人身份特征向量输入VAE模型的Decoder端。
5.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,源说话人频谱特征为源说话人的语音频谱特征sp,即
6.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,将源说话人频谱特征输入语音转换模型的Encoder端,并将Encoder端输出的说话人无关的语义特征z、目标说话人的标签yt及身份特征向量It输入语音转换模型的Decoder端,转换获取目标说话人的频谱特征并对与源说话人的谐波包络特征ap矩阵进行归一化处理后与转换后的目标说话人的基频输入语音合成模型进行语音合成。
7.根据权利要求1或5所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述语音合成模型为WORLD语音合成模型。
8.根据权利要求1所述的非平行文本条件下基于VAE与i-vector的多对多语音转换系统,其特征在于,所述步骤S6中基频转换的公式为:
其中,源说话人的基频在对数域的均值和方差分别为μsrc和σsrc,目标说话人的基频在对数域的均值和方差分别为μtar和σtar,为源说话人的基频,为转换后的基频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811597896.0/1.html,转载请声明来源钻瓜专利网。