[发明专利]一种基于混合隐马尔可夫模型的语音合成系统无效
申请号: | 200710304225.6 | 申请日: | 2007-12-26 |
公开(公告)号: | CN101471071A | 公开(公告)日: | 2009-07-01 |
发明(设计)人: | 陶建华;于剑;张蒙 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06;G10L13/08 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 梁爱荣 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 隐马尔可夫 模型 语音 合成 系统 | ||
技术领域
本发明涉及一种语音合成系统,具体地涉及基于混合隐马尔可夫模型的语音合成系统。
背景技术
语音合成系统又称文语转换系统(TTS系统),它的主要功能是将计算机接收到的或输入的任意文字串转换成语音输出。传统的语音合成系统是基于单元拼接的,其音质表现好,但是所需音库资源比较大,导致其在嵌入式设备上的应用遇到瓶颈。而基于隐马尔可夫模型的语音合成系统从本质上来说是一种参数合成系统,具有灵活性高和所需存储资源小的优点。但是,由于其参数化的本质,其音质表现通常大大逊于基于拼接的合成系统,这也正是当前基于隐马尔可夫模型的语音合成系统难以大规模应用的瓶颈所在。
基于隐马尔可夫模型的语音合成系统音质表现差的原因主要是来自于模型生成频谱参数的两个过平滑问题:时域过平滑问题和频域过平滑问题。频域上的过平滑现象导致合成的语音共振峰不清晰,进而导致了听感上的模糊。产生这种现象的原因是在传统基于隐马尔可夫语音合成系统训练过程中,大量的统计操作使得高斯函数均值所表征的频谱丢失了太多的细节信息。而时域上的过平滑现象则导致频谱变化过程中损失了太多细节,这是由连续隐马尔可夫模型的本质所导致的。在传统方法中,一个音素往往由3个或5个状态来表示。如果某个状态的持续时间较长,仅仅依靠该状态对应的高斯函数均值无法描述该状态内部语音参数变化的细节,这引起了严重的时域过平滑问题。因此,需要一种新的算法,可以尽可能地保证频谱信息的精确度,这样,才能够构建自然、流畅的参数化语音合成系统。
发明内容
为了解决现有技术问题,本发明的目的是要提出一种算法,可以最大程度上保证频谱信息的精确,从而保证输出语音的清晰度。为此,本发明构建一种基于混合隐马尔可夫模型的语音合成系统。
为实现上述目的,本发明的一种基于混合隐马尔可夫模型的语音合成系统,利用各种电脑终端及数字移动设备,将系统接收的或输入的任意文字串转换成语音输出,由频谱信息生成模块、基频信息生成模块、参数语音合成器模块、离线训练部分组成,其中:
具有一频谱信息生成模块,输入端接收任意文本信息,负责根据指标来选取表征频谱信息的码本矢量并产生完整的频谱信息;具有一输出端输出完整的频谱信息;
具有一基频信息生成模块,输入端接收文本信息,负责预测待合成句子的音高变化;具有一输出端输出完整的基频曲线;
具有一参数语音合成器模块,输入端接收来自于频谱信息生成模块的频谱信息和来自于基频信息生成模块的基频信息;具有一输出端输出合成的语音结果;
具有一离线训练模块,负责各种隐马尔可夫模型的训练。
根据本发明的实施例,所述频谱信息生成模块包括:
具有一隐马尔可夫模型映射模块,接受任意文本信息,将其表征为带有韵律信息标注的音素序列,找到与其最符合的隐马尔可夫模型;具有一输出端输出隐马尔可夫模型状态序列;
具有一离散隐马尔可夫模型模块,根据训练得到的离散隐马尔可夫模型得到当前状态下码本矢量的输出概率;具有一输出端输出当前状态下码本矢量的输出概率;根据该输出概率进行码本的选择,保证码本选择的正确性;
具有一有关共振峰轨迹的多空间概率隐马尔可夫模型模块,根据训练得到的多空间概率隐马尔可夫模型得到当前状态下的共振峰轨迹;具有一输出端输出当前状态下的共振峰轨迹;合成语音的共振峰轨迹应该与该理想的共振峰轨迹相吻合,保证语音的清晰度;
具有一拼接概率模块,具有一输出端输出相邻状态之间所有码本矢量的输出概率;依据两两候选码本之间相邻的概率进行码本选择,使频谱在时域上具有多样性;
具有一有关能量轨迹的连续隐马尔可夫模型模块,根据训练得到的连续隐马尔可夫模型得到当前状态下的能量轨迹;具有一输出端输出当前状态下的能量轨迹;
具有一码本选择模块,根据离散隐马尔可夫模型模块、有关共振峰轨迹的多空间概率隐马尔可夫模型模块和拼接概率模块的输出结果使用动态规划算法进行码本的选择;具有一输出端输出选择得到的码本序列;
码本选择模块的输出和有关能量轨迹的连续隐马尔可夫模型模块的输出,两者结合,获得完整的频谱信息。
根据本发明的实施例,所述基频信息生成模块包括:
具有一有关基频曲线的多空间概率分布隐马尔可夫模块,根据训练得到的多空间概率分布隐马尔可夫模型得到待合成语句的基频曲线;具有一输出端输出待合成语句的基频曲线。
根据本发明的实施例,所述参数语音合成器模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710304225.6/2.html,转载请声明来源钻瓜专利网。