[发明专利]一种基于简化自适应内插加权谱模型的语音转换及重构方法有效
申请号: | 201210401029.1 | 申请日: | 2012-10-19 |
公开(公告)号: | CN102930863A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 汤一彬;高远;徐宁;单鸣雷;朱昌平;蒋爱民;韩庆邦;殷澄 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L13/00 | 分类号: | G10L13/00;G10L13/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 简化 自适应 内插 加权 模型 语音 转换 方法 | ||
技术领域
本发明属于语音信号处理技术领域,涉及一种语音转换和重构模型,特别涉及一种基于自适应内插加权谱的语音转换及重构(STRAIGHT)模型。
背景技术
语音参数化和重构是一个重要且具有一定挑战性的问题。其对应的语音分析-合成系统被广泛用于各种应用,如语音编码,转换等。在H.Kawahara,I.M.Katsuse,A.d.Cheveigne,“Restructuring speech representations using a pitchadaptive time-frequency smoothing and an instantaneous-frequency-based F0extraction:Possible role of a repetitive structure in sounds,”J.SpeechCommunication,vol.27,no.3-4,pp.187–207,April.1999发表的文献中表明,基于自适应内插加权谱的语音转换及重构(Speech Transformati on andRepresentation using Adaptive Interpolation of weiGHTed spectrum,STRAIGHT)模型,抛弃了传统语音模型中声门、声道的构造,直接提取语音的功率谱,获得了高质量的语音合成效果。其逐渐成为目前主流的语音分析合成模型,广泛应用在语音合成、语音转换等各方面。其采用以VOCODER为原型的源滤波器的思想来表征语音信号,把语音信号看作激励信号通过时变线性滤波器后输出的结果。在分析得到各帧的语音功率谱后,对该功率谱进行时频域上的平滑处理,同时在时间轴和频率轴上进行过采样,保证合成阶段对语音的高质量重构。
STRAIGHT模型本身也存在一些缺陷。STRAIGHT模型一开始是针对宽带语音合成提出的,其在多方面进行了较为精密的计算。如在非周期成分参数的提取过程中就包含相位弯曲映射,功率谱计算,功率谱上下边包络提取,上下边包络等价直角带宽(ERB)域计算,下边包络增强等一系列复杂的计算。因此,STRAIGHT模型的高计算量成为制约该模型进一步应用和发展的一个重要问题。
发明内容
本发明的目的是实现在保持合成语音质量基本不变的同时,使STRAIGHT模型输出参数种类个数的减少,减小STRAIGHT模型计算量,简化非周期成分参数的分析和输出。
本发明的技术方案从以下方面考虑:STRAIGHT模型是一种基于功率谱的语音模型。其平滑功率谱参数为一种经过时频域补偿后的功率谱,而非周期成分参数为对功率谱上下边包络处理后所提取的参数。从本质上说,两者都是原始功率谱的一种表现形式,存在一定相关性,因此可通过GMM模型构建两者的相关性,并最终达到从平滑功率谱参数中估计出非周期成分参数的目的。
本发明的主要技术内容如下:
一种基于简化自适应内插加权谱模型的语音转换及重构方法,其特征在于,在分析部分省略了原STRAIGHT模型中的非周期成分参数提取模块,在合成部分增加非周期成分参数重构过程。
所述的非周期成分参数重构过程,其包括美尔倒谱系数(MFCC)获取模块,高斯混合模型模块,美尔倒谱系数分类模块,平滑功率谱分类模块,非周期成分分类及其估计模块。
所述的非周期成分参数重构过程,包含以下步骤:
(1)、训练阶段:
(1a)、在美尔倒谱系数MFCC获取模块中输入平滑功率谱参数的训练集{Pi(w)},1≤i≤T,获得对应的美尔倒谱MFCC系数集{Mi},其中Mi=DCT{logΦPi(w)},Φ为人类听觉感知的权重函数,DCT{.}表示离散余弦变换,T为语音总帧数;
(1b)、在高斯混合模型GMM模块中对MFCC系数集采用进行最大期望值EM算法训练,更新高斯混合模型GMM中各状态参数,直至参数稳定为止,并记录GMM中的各状态参数,备重构阶段使用;
对于高斯混合模型GMM,设输入参数集为{xi}={Mi},1≤i≤T,设输入参数为x的概率分布p(x)为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210401029.1/2.html,转载请声明来源钻瓜专利网。