[发明专利]基于说话人模型对齐的非对称语音库条件下的语音转换方法有效
申请号: | 201410399475.2 | 申请日: | 2014-08-14 |
公开(公告)号: | CN104217721B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 宋鹏;赵力;金赟 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L13/02;G10L21/00;G10L25/24 |
代理公司: | 江苏永衡昭辉律师事务所32250 | 代理人: | 王斌 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明本发明在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。 | ||
搜索关键词: | 基于 说话 模型 对齐 对称 语音 条件下 转换 方法 | ||
【主权项】:
一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音;所述的说话人模型对齐方法的步骤具体如下:步骤Ⅰ,训练得到说话人模型:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,具体为:p(x)=Σi=1MωiN(x,μix,Σix),p(y)=Σi=1MviN(y,μiy,Σiy)---(1)]]>其中,p(x)对应着GMMx,p(y)对应着GMMy,N(·)表示高斯分布,和分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的均值向量,和表示第i个高斯分量的协方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X'={x'j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X'用于每一次迭代搜索后的中间序列,并运用期望最大化方法训练得到辅助向量序列的模型,记作GMMx',具体表达式为:p(x′)=Σi=1MωiN(x′,μx′,σx′)---(2)]]>其中,x'表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx'的参数为并且初始化设定为步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:D=d11d12...d1Md21d22...d2M............dM1dM2...dMM---(3)]]>其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KL Divergence来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为dij=12(d(fi(x)||fj(x))+d(fj(x)||fi(x)))---(4)]]>其中,步骤Ⅳ,最近邻搜索:对GMMx'的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx'中对应的相似度最高的分量ψ(t);步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为和其中,s=1,2,…,M,t=1,2,…,M;和分别表示GMMx'第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,和分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx'中对应的高斯分量ψ(t)所对应的均值向量;去除和中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx',μy};利用最小二乘估计法计算得到μx'和μy之间的映射函数:fmu(μx')=Aμx'+b (5)其中,T表示矩阵转置,b=μy‑Aμx';将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,则转换函数如下:fmu(x')=Ax'+b (6)辅助向量x'通过下式得到,具体为:x'=fmu(x') (7)源说话人特征向量x和辅助向量x'之间的转换函数fsa(x)为:x'=fsa(x)=Cx+d (8)其中,d=μx'‑Aμx;步骤Ⅵ,通过期望最大化方法对辅助向量序列X'重新进行模型训练得到GMMx',重复上述步骤Ⅲ~Ⅴ,直到GMMx'和GMMy之间的相似度满足收敛条件其中δ为一经验常数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410399475.2/,转载请声明来源钻瓜专利网。