[发明专利]一种基于受限玻尔兹曼机的语音合成方法有效
申请号: | 201310099895.4 | 申请日: | 2013-03-26 |
公开(公告)号: | CN103226946A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 凌震华;陈凌辉;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L13/027 | 分类号: | G10L13/027 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;陈亮 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据;利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。 | ||
搜索关键词: | 一种 基于 受限 玻尔兹曼机 语音 合成 方法 | ||
【主权项】:
一种基于受限玻尔兹曼机的语音合成方法,其特征在于,所述方法包括:在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练;在单高斯的HMM训练完成后,利用训练得到的Gaussian‑HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况;在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测;利用Gaussian‑HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310099895.4/,转载请声明来源钻瓜专利网。
- 上一篇:具有改善的粘结的吸收制品
- 下一篇:一种苯直接氧化制备苯二酚的工艺