[发明专利]一种面向多时间尺度韵律特征的语音转换方法无效
申请号: | 201210538744.X | 申请日: | 2012-12-13 |
公开(公告)号: | CN103021418A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 李燕萍;张玲华 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/00 | 分类号: | G10L21/00;G10L13/00;G10L15/02;G10L15/14 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 多时 尺度 韵律 特征 语音 转换 方法 | ||
1.一种面向多时间尺度韵律特征的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理:对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;
步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下:
对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;
同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;
步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;
步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;
所述转换阶段包括如下步骤:
步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;
步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;
步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
2.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,所述加窗处理采用汉明窗进行加窗处理。
3.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤B的多时间尺度韵律特征具体提取步骤如下:
B-1,对短语尺度下的韵律特征,采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化,结合整个语句中的最大基频,最小基频以及基频平均值一起构成短语尺度下的韵律特征;
B-2,对音节尺度下的韵律特征、语句尺度下的韵律特征,
i,对音节尺度下的韵律特征,对于语音信号,选用时长结合标注音节的短时均方能量参数RMSs来描述,所述时长采用标注音节的持续采样点数{Ds,s=1,2,…S}来描述,其中s表示语句中S个音节中的第s个音节,s、S均为正整数;考虑到相邻音节之间的动态特性,将当前音节与下一音节参数之间的差值ΔD=Ds-1-Ds作为补充特征,并且加入整句中音节持续时长的平均值AVGD和音节能量的平均值AVGRMS构成联合特征;
ii,对语句尺度下的韵律特征,采用整个语句的逐帧有效声压级值的量化码本来表征,所述的逐帧有效声压级值根据公式SPLt=20×log(RMSt/(2×10-5))计算,其中RMSt表示语句中第t帧的短时均方能量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210538744.X/1.html,转载请声明来源钻瓜专利网。