[发明专利]一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法有效
申请号: | 201310360234.2 | 申请日: | 2013-08-16 |
公开(公告)号: | CN103413548A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | 刘利娟;陈凌辉;凌震华;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L15/06 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法,实现步骤为:提取语音频谱包络特征,提取语音高层频谱特征,动态时间规整,GMM模型训练,联合频谱包络特征声学子空间划分,Gaussian-Bernoulli RBM模型训练或Gaussian-Gaussian RBM模型训练,频谱转换和合成转换语音。本发明提高了频谱建模精度,改善转换语音的音质和自然度。 | ||
搜索关键词: | 一种 基于 受限 玻尔兹曼机 联合 频谱 建模 声音 转换 方法 | ||
【主权项】:
1.一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法,其特征在于实现步骤如下:步骤一:提取语音频谱包络特征(1)利用STRAIGHT分析合成器分别对源和目标说话人的训练语料按帧分析,得到语音基频序列值以及静态频谱包络特征
和
其中
和
分别为源和目标说话人第t帧静态频谱包络特征矢量,维度均为513,T1和T2分别为源和目标特征矢量帧数;(2)基于静态频谱包络特征
和
根据公式(2)(3)得到一阶动态频谱包络特征
和
根据公式(4)(5)得到二阶动态频谱包络特征
和![]()
Δ c t = 0.5 c t + 1 - 0.5 c t - 1 , ∀ t ∈ [ 2 , T - 1 ] - - - ( 2 ) ]]>Δ c 1 = Δ c 2 , Δ c T = Δ c T - 1 - - - ( 3 ) ]]>Δ 2 c t = c t + 1 - 2 c t + c t - 1 , ∀ t ∈ [ 2 , T - 1 ] - - - ( 4 ) ]]>Δ 2 c 1 = Δ 2 c 2 , Δ 2 c T = Δ 2 c T - 1 - - - ( 5 ) ]]> 其中,Δ·表示一阶差分,Δ2·表示二阶差分,T为特征序列的帧数,ct表示第t帧特征矢量;(3)将
和![]()
拼接在一起,最终得到源说话人的频谱包络特征X SPE = [ X 1 SP E T , X 2 SP E T , · · · X t SP E T , · · · , X T 1 SP E T ] T , ]]> 其中,第t帧频谱包络特征X t SPE = [ x t SPE T , Δx t SP E T , Δ 2 x t S PE T ] T , ]]> [·]T表示矢量转置。将
和![]()
拼接在一起,最终得到目标说话人的频谱包络特征Y SPE = [ Y 1 SPE T , Y 2 SP E T , · · · Y t S PE T , · · · , Y T 2 SPE T ] T , ]]> 其中,第t帧频谱包络特征Y t SPE = [ y t SPE T , Δy t SPE T , Δ 2 y t SP E T ] T ; ]]> 步骤二:提取语音高层频谱特征(1)在得到的静态频谱包络特征
和
基础上,进一步提取每帧语音对应的高层频谱特征,这里使用40阶梅尔倒谱特征,得到源与目标说话人的静态高层频谱特征
和
(2)基于
和
根据公式(2)(3)得到一阶动态高层频谱特征
和
根据公式(4)(5)得到二阶动态高层频谱特征
和
(3)将
和
拼接在一起,最终得到源说话人的高层频谱特征X MCEP = [ X 1 MCEP T , X 2 MCEP T , · · · X t MCEP T , · · ·, X T 1 MCEP T ] T , ]]> 其中,第t帧高层频谱特征X t MCEP = [ x t MCEP T , Δ x t MCEP T , Δ 2 x t MCEP T ] T . ]]> 将
和
拼接在一起,最终得到目标说话人的高层频谱特征Y MCEP = [ Y 1 MCEP T , Y 2 MCE P T , · · · Y t MCEP T , · · · , Y T 2 MCEP T ] T , ]]> 其中,第t帧高层频谱特征Y t SPE = [ y t MCEP T , Δy t MCEP T , Δ 2 y t MCEP T ] T ; ]]> 步骤三:动态时间规整(1)根据DTW动态时间规整(Dynamic Time Align,DTW)算法计算XMCEP和YMCEP之间的对齐函数,并根据该对齐函数将XMCEP和YMCEP对齐,由对齐后的XMCPE和YMCEP拼接得到联合高层频谱特征Z MCEP = [ Z 1 MCE P T , Z 2 MCE P T , · · · Z t MCE P T , · · · , Z T MCE P T ] T , ]]> 其中,第t帧联合高层频谱特征Z t MCEP = [ X t MCE P T , Y t MCE P T ] T , ]]> T表示对齐后的帧长;(2)根据(1)中得到的对齐函数将XSPE和YSPE对齐,由对齐后的XSPE和YSPE拼接得到联合频谱包络特征Z SPE = [ Z 1 SPE T , Z 2 SPE T , · · · Z t SPE T , · · · , Z T SPE T ] T , ]]> 其中,第t帧联合频谱包络特征Z t SPE = [ X t SP E T , Y t SP E T ] T ; ]]> 步骤四:GMM模型训练利用上一步得到的联合高层频谱特征ZMCEP,根据最大似然准则,利用EM算法对GMM模型进行训练,得到模型参数
其中,M为GMM模型中混合高斯分布的个数,ωm,μm,∑m分别表示第m个混合高斯分布的权重、均值向量和协方差矩阵;步骤五:联合频谱包络特征声学子空间划分在GMM模型训练完成后,利用得到的GMM模型参数λGMM,根据最大后验概率准则,对联合高层频谱特征ZMCEP进行声学子空间划分,得到由ZMCEP中每帧特征所属的声学子空间索引组成的索引序列m=[m1,m2,…,mt,…mT];m = arg max m P ( m | Z MCEP , λ CMM ) - - - ( 6 ) ]]> 根据索引序列m对联合频谱包络特征ZSPE进行声学子空间划分,将具有相同子空间索引的联合频谱包络特征帧分类在一起,作为该声学子空间下Gaussian-Bernoulli RBM模型的训练特征参数集;步骤六:Gaussian-Bernoulli RBM模型训练由于频谱包络特征参数值为连续实数,为了对其分布能够进行更准确的描述假设每个显层节点服从连续的概率分布,这里假设为高斯分布,同时假设隐含节点服从{0,1}二值分布;根据步骤五中的划分结果,对每个声学子空间独立训练RBM模型,采用的Gaussian-Bernoulli形式的RBM模型对应的能量函数为:E ( v , h ) = Σ i = 1 V ( v i - a i ) 2 2 σ i 2 - Σ j = 1 H b j h j - Σ i = 1 V Σ j = 1 H v i σ i w ij h j - - - ( 7 ) ]]> 其中,变量v=[v1,v2,…,vV]T对应RBM模型显层节点,V为显层节点的个数,变量h=[h1,h2,…,hH]T对应RBM模型隐含节点,H为隐含节点的个数;θ={W,a,b}为模型参数,W={wij}V×H,wij表示显层节点vi与隐含节点hj的连接权值,a=[a1,a2,…,aV]T和b=[b1,b2,…,bH]T为偏置参数;
是显层节点vi的方差,在模型训练中固定为一个定值不进行更新,为了表示方便,这里令其为1;显层节点v和隐含节点h的联合概率分布定义为:
其中,
为配分项
根据公式(7)(8),得到显层节点的联合概率分布;![]()
(10)![]()
利用步骤五中得到的各声学子空间的训练数据,根据最大似然准则,采用Contrastive Divergence(CD)算法对模型参数
进行估计,其中,{Wm,bm,am}为第m个Gaussian-Bernoulli RBM的模型参数;步骤七:频谱转换(1)在转换阶段,提取待转换语音的静态频谱包络特征,并根据(2)(3)、(4)(5)得到其一阶和二阶动态频谱包络特征,将静态和一阶、二阶动态频谱包络特征拼接在一起得到待转换频谱包络特征,第t帧待转换频谱包络特征用
表示。在静态频谱包络特征基础上提取静态高层频谱特征,并根据(2)(3)、(4)(5)得到一阶和二阶动态高层频谱特征,将静态和一阶、二阶动态高层频谱特征拼接在一起得到待转换语音的高层频谱特征,第t帧高层频谱特征用
表示;根据最大后验概率准则计算待转换语音第t帧频谱特征对应的声学子空间索引m;m = arg max m P ( m | X t MCEP , λ GMM ) - - - ( 11 ) ]]> (2)对待转换频谱包络特征
根据最大条件概率输出准则进行转换,得到的转换频谱包络特征为:Y ~ t SPE = arg max Y t SPE P ( Y t SPE | X t SPE ) = arg max Y t SPE P ( X t SPE , Y t SPE ) P ( X t SPE ) - - - ( 12 ) ]]> 上式可进一步简化为:Y ~ t SPE = arg max Y t SPE P ( X t SPE , Y t SPE ) - - - ( 13 ) ]]> 由于(13)式得不到闭合解,采用梯度下降搜索算法来获得转换频谱包络特征参数,梯度下降算法的更新公式为:Y t SP E ( i + 1 ) = Y t SP E ( i ) + α · ∂ log P ( X t SPE , Y t SPE ) ∂ Y t SPE | Y t SPE = Y t SP E ( i ) - - - ( 14 ) ]]> 其中,i为迭代次数,α为步长,根据公式(10),
关于
的偏导数;∂ log P ( X t SPE , Y t SPE ) ∂ Y t SPE = - ( Y t SPE - a m ( y ) ) + Σ j = 1 H exp ( b m , j + v t T w m , j ) ( 1 + exp ( b m , j + v t T w m , j ) ) w m , j ( y ) - - - ( 15 ) ]]> 其中,am、bm=[bm,1,…,bm,j,…,bm,H]T、Wm=[wm,1,…,wm,j,…,wm,H]V×H为第m个Gaussian-Bernoulli RBM模型参数,wm,j为矩阵Wm的第j列;![]()
为am、wm,j中与目标特征相关项;采用RBM模型的模式作为梯度下降搜索算法的初始值;由于对数域下的
中含有函数项f(x)=log(1+exp(x));当|x|>4时,f*(x)实现对f(x)的精确逼近;f * ( x ) = x x ≥ 0 , 0 x < 0 . - - - ( 16 ) ]]> 利用这种近似,对公式(13)进行求解得到转换频谱包络特征为:Y ~ t SPE = a m ( y ) + Σ j : b m , j + v T w m , j > 0 w m , j ( y ) - - - ( 17 ) ]]> 步骤八:合成转换语音最后,将转换得到的基频序列以及步骤七中得到转换频谱包络特征序列送入STRAIGHT合成器,生成转换语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310360234.2/,转载请声明来源钻瓜专利网。