[发明专利]一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法有效

申请号：	201310360234.2	申请日：	2013-08-16
公开（公告）号：	CN103413548A	公开（公告）日：	2013-11-27
发明（设计）人：	刘利娟;陈凌辉;凌震华;戴礼荣	申请（专利权）人：	中国科学技术大学
主分类号：	G10L13/033	分类号：	G10L13/033;G10L15/06
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	成金玉
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法，实现步骤为：提取语音频谱包络特征，提取语音高层频谱特征，动态时间规整，GMM模型训练，联合频谱包络特征声学子空间划分，Gaussian-Bernoulli RBM模型训练或Gaussian-Gaussian RBM模型训练，频谱转换和合成转换语音。本发明提高了频谱建模精度，改善转换语音的音质和自然度。
搜索关键词：	一种基于受限玻尔兹曼机联合频谱建模声音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法，其特征在于实现步骤如下：步骤一：提取语音频谱包络特征(1)利用STRAIGHT分析合成器分别对源和目标说话人的训练语料按帧分析，得到语音基频序列值以及静态频谱包络特征和其中和分别为源和目标说话人第t帧静态频谱包络特征矢量，维度均为513，T₁和T₂分别为源和目标特征矢量帧数；(2)基于静态频谱包络特征和根据公式(2)(3)得到一阶动态频谱包络特征和根据公式(4)(5)得到二阶动态频谱包络特征和Δct=0.5ct+1-0.5ct-1,∀t∈[2,T-1]---(2)]]>Δc1=Δc2,ΔcT=ΔcT-1---(3)]]>Δ2ct=ct+1-2ct+ct-1,∀t∈[2,T-1]---(4)]]>Δ2c1=Δ2c2,Δ2cT=Δ2cT-1---(5)]]>其中，Δ·表示一阶差分，Δ²·表示二阶差分，T为特征序列的帧数，c_t表示第t帧特征矢量；(3)将和拼接在一起，最终得到源说话人的频谱包络特征XSPE=[X1SPET,X2SPET,···XtSPET,···,XT1SPET]T,]]>其中，第t帧频谱包络特征XtSPE=[xtSPET,ΔxtSPET,Δ2xtSPET]T,]]>[·]^T表示矢量转置。将和拼接在一起，最终得到目标说话人的频谱包络特征YSPE=[Y1SPET,Y2SPET,···YtSPET,···,YT2SPET]T,]]>其中，第t帧频谱包络特征YtSPE=[ytSPET,ΔytSPET,Δ2ytSPET]T;]]>步骤二：提取语音高层频谱特征(1)在得到的静态频谱包络特征和基础上，进一步提取每帧语音对应的高层频谱特征，这里使用40阶梅尔倒谱特征，得到源与目标说话人的静态高层频谱特征和(2)基于和根据公式(2)(3)得到一阶动态高层频谱特征和根据公式(4)(5)得到二阶动态高层频谱特征和(3)将和拼接在一起，最终得到源说话人的高层频谱特征XMCEP=[X1MCEPT,X2MCEPT,···XtMCEPT,···,XT1MCEPT]T,]]>其中，第t帧高层频谱特征XtMCEP=[xtMCEPT,ΔxtMCEPT,Δ2xtMCEPT]T.]]>将和拼接在一起，最终得到目标说话人的高层频谱特征YMCEP=[Y1MCEPT,Y2MCEPT,···YtMCEPT,···,YT2MCEPT]T,]]>其中，第t帧高层频谱特征YtSPE=[ytMCEPT,ΔytMCEPT,Δ2ytMCEPT]T;]]>步骤三：动态时间规整(1)根据DTW动态时间规整(Dynamic Time Align，DTW)算法计算X^MCEP和Y^MCEP之间的对齐函数，并根据该对齐函数将X^MCEP和Y^MCEP对齐，由对齐后的X^MCPE和Y^MCEP拼接得到联合高层频谱特征ZMCEP=[Z1MCEPT,Z2MCEPT,···ZtMCEPT,···,ZTMCEPT]T,]]>其中，第t帧联合高层频谱特征ZtMCEP=[XtMCEPT,YtMCEPT]T,]]>T表示对齐后的帧长；(2)根据(1)中得到的对齐函数将X^SPE和Y^SPE对齐，由对齐后的X^SPE和Y^SPE拼接得到联合频谱包络特征ZSPE=[Z1SPET,Z2SPET,···ZtSPET,···,ZTSPET]T,]]>其中，第t帧联合频谱包络特征ZtSPE=[XtSPET,YtSPET]T;]]>步骤四：GMM模型训练利用上一步得到的联合高层频谱特征Z^MCEP，根据最大似然准则，利用EM算法对GMM模型进行训练，得到模型参数其中，M为GMM模型中混合高斯分布的个数，ω_m，μ_m，∑_m分别表示第m个混合高斯分布的权重、均值向量和协方差矩阵；步骤五：联合频谱包络特征声学子空间划分在GMM模型训练完成后，利用得到的GMM模型参数λ_GMM，根据最大后验概率准则，对联合高层频谱特征Z^MCEP进行声学子空间划分，得到由Z^MCEP中每帧特征所属的声学子空间索引组成的索引序列m＝[m₁，m₂，…，m_t，…m_T]；m=argmaxmP(m|ZMCEP,λCMM)---(6)]]>根据索引序列m对联合频谱包络特征Z^SPE进行声学子空间划分，将具有相同子空间索引的联合频谱包络特征帧分类在一起，作为该声学子空间下Gaussian-Bernoulli RBM模型的训练特征参数集；步骤六：Gaussian-Bernoulli RBM模型训练由于频谱包络特征参数值为连续实数，为了对其分布能够进行更准确的描述假设每个显层节点服从连续的概率分布，这里假设为高斯分布，同时假设隐含节点服从{0，1}二值分布；根据步骤五中的划分结果，对每个声学子空间独立训练RBM模型，采用的Gaussian-Bernoulli形式的RBM模型对应的能量函数为：E(v,h)=Σi=1V(vi-ai)22σi2-Σj=1Hbjhj-Σi=1VΣj=1Hviσiwijhj---(7)]]>其中，变量v＝[v₁，v₂，…，v_V]^T对应RBM模型显层节点，V为显层节点的个数，变量h＝[h₁，h₂，…，h_H]^T对应RBM模型隐含节点，H为隐含节点的个数；θ＝{W，a，b}为模型参数，W＝{w_ij}_V×H，w_ij表示显层节点v_i与隐含节点h_j的连接权值，a＝[a₁，a₂，…，a_V]^T和b＝[b₁，b₂，…，b_H]^T为偏置参数；是显层节点v_i的方差，在模型训练中固定为一个定值不进行更新，为了表示方便，这里令其为1；显层节点v和隐含节点h的联合概率分布定义为：其中，为配分项根据公式(7)(8)，得到显层节点的联合概率分布；(10)利用步骤五中得到的各声学子空间的训练数据，根据最大似然准则，采用Contrastive Divergence(CD)算法对模型参数进行估计，其中，{W_m，b_m，a_m}为第m个Gaussian-Bernoulli RBM的模型参数；步骤七：频谱转换(1)在转换阶段，提取待转换语音的静态频谱包络特征，并根据(2)(3)、(4)(5)得到其一阶和二阶动态频谱包络特征，将静态和一阶、二阶动态频谱包络特征拼接在一起得到待转换频谱包络特征，第t帧待转换频谱包络特征用表示。在静态频谱包络特征基础上提取静态高层频谱特征，并根据(2)(3)、(4)(5)得到一阶和二阶动态高层频谱特征，将静态和一阶、二阶动态高层频谱特征拼接在一起得到待转换语音的高层频谱特征，第t帧高层频谱特征用表示；根据最大后验概率准则计算待转换语音第t帧频谱特征对应的声学子空间索引m；m=argmaxmP(m|XtMCEP,λGMM)---(11)]]>(2)对待转换频谱包络特征根据最大条件概率输出准则进行转换，得到的转换频谱包络特征为：Y~tSPE=argmaxYtSPEP(YtSPE|XtSPE)=argmaxYtSPEP(XtSPE,YtSPE)P(XtSPE)---(12)]]>上式可进一步简化为：Y~tSPE=argmaxYtSPEP(XtSPE,YtSPE)---(13)]]>由于(13)式得不到闭合解，采用梯度下降搜索算法来获得转换频谱包络特征参数，梯度下降算法的更新公式为：YtSPE(i+1)=YtSPE(i)+α·∂logP(XtSPE,YtSPE)∂YtSPE|YtSPE=YtSPE(i)---(14)]]>其中，i为迭代次数，α为步长，根据公式(10)，关于的偏导数；∂logP(XtSPE,YtSPE)∂YtSPE=-(YtSPE-am(y))+Σj=1Hexp(bm,j+vtTwm,j)(1+exp(bm,j+vtTwm,j))wm,j(y)---(15)]]>其中，a_m、b_m＝[b_m，1，…，b_m，j，…，b_m，H]^T、W_m＝[w_m，1，…，w_m，j，…，w_m，H]_V×H为第m个Gaussian-Bernoulli RBM模型参数，w_m，j为矩阵W_m的第j列；为a_m、w_m，j中与目标特征相关项；采用RBM模型的模式作为梯度下降搜索算法的初始值；由于对数域下的中含有函数项f(x)＝log(1+exp(x))；当|x|＞4时，f^*(x)实现对f(x)的精确逼近；f*(x)=xx≥0,0x<0.---(16)]]>利用这种近似，对公式(13)进行求解得到转换频谱包络特征为：Y~tSPE=am(y)+Σj:bm,j+vTwm,j>0wm,j(y)---(17)]]>步骤八：合成转换语音最后，将转换得到的基频序列以及步骤七中得到转换频谱包络特征序列送入STRAIGHT合成器，生成转换语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310360234.2/，转载请声明来源钻瓜专利网。

上一篇：有机钌络合物以及使用该钌络合物的钌薄膜的制造方法
下一篇：一种基于车路协同的弯道行车预警方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法有效

专利文献下载