[发明专利]话音合成器、话音合成方法和话音合成程序有效
| 申请号: | 201180016109.9 | 申请日: | 2011-03-23 |
| 公开(公告)号: | CN102822888A | 公开(公告)日: | 2012-12-12 |
| 发明(设计)人: | 加藤正德 | 申请(专利权)人: | 日本电气株式会社 |
| 主分类号: | G10L13/06 | 分类号: | G10L13/06;G10L13/08 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;辛鸣 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 话音 合成器 合成 方法 程序 | ||
技术领域
本发明涉及用于生成输入文本的合成话音的话音合成器、话音合成方法和话音合成程序。
背景技术
存在通过基于由文本分析的结果表示的语音信息的规则、借助于话音合成而分析文本以及生成合成话音的话音合成器。
这种通过规则、借助于话音合成而生成合成话音的话音合成器首先基于文本的分析的结果而生成关于合成话音的韵律信息(通过声音的音高(音高频率)、声音的长度(音位持续时间)、声音的量级(功率)等来指示韵律的信息)。随后,话音合成器从分段词典中选择与文本分析的结果和韵律信息相对应的分段(合成单元),该分段词典已经预存储了多种分段(波形生成参数)。
随后,话音合成器基于从分段词典中选择的分段(波形生成参数)来生成话音波形。最后,话音合成器通过连接所生成的话音波形来生成合成话音。
当此类话音合成器基于所选择的分段来生成话音波形时,话音合成器生成具有与由所生成的韵律信息所指示的韵律接近的韵律的话音波形,以便生成高声音质量的合成话音。
非专利文献1描述了一种用于生成话音波形的方法。在非专利文献1的方法中,将振幅谱(作为通过对音频信号进行傅里叶变换而获得的谱的振幅分量)在时间频率方向进行平滑,并且将其用作波形生成参数。非专利文献1还描述了一种用于将归一化谱计算为通过振幅谱进行归一化的谱的方法。在该方法中,基于随机数来计算群延迟,并且通过使用所计算的群延迟来计算归一化谱。
专利文献1描述了一种话音处理设备,包括存储单元,该存储单元预存储待用于生成合成话音的过程的话音分段波形的周期分量和非周期分量。
引用列表
专利文献
专利文档1:JP-A-2009-163121(0025-0289段,图1)
非专利文献
非专利文献1:Hideki Kawahara,″Speech Representation and Transformation Using Adaptive Interpolation of Weighted Spectrum:Vocoder Revisited″,(USA),IEEE ICASSP-97,第2卷,1997,第1303-1306页
发明内容
技术问题
在由前述话音合成器采用的波形生成方法中,连续地计算归一化谱。归一化谱用于生成音高波形,其必须以接近音高周期的间隔生成。因此,采用该波形生成方法的话音合成器必须频繁地计算归一化谱,从而引起极大量的计算。
另外,归一化谱的计算需要如非专利文献1中所描述的基于随机数的群延迟的计算。在通过使用群延迟来计算归一化谱的过程中,必须执行包括大量计算的积分计算。由此,采用上述波形生成方法的话音合成器必须频繁地执行一系列计算(基于随机数的群延迟的计算以及通过进行包括大量计算的积分计算而通过所计算的群延迟的对归一化谱的计算)。
随着计算数量的增多,话音合成器生成合成话音所需要的吞吐量(每单位时间的工作负载)增加。因此,每单位时间应当输出的合成话音的生成变得不可能,尤其是在低处理功率的话音合成器与合成话音的生成同步地输出合成话音时。平滑输出合成话音的不可能性严重地影响了由话音合成器输出的合成话音的声音质量。
同时,专利文献1中描述的话音处理设备通过使用存储单元中预存储的话音分段波形的周期分量和非周期分量来生成合成话音。需要此类话音处理设备来生成更高声音质量的合成话音。
因此,本发明的主要目的是提供一种话音合成器、话音合成方法和话音合成程序,其能够利用较少数目的计算来生成更高声音质量的合成话音。
问题的解决方案
为了实现上述目的,本发明提供了一种话音合成器,该话音合成器生成输入文本的合成话音,包括:浊音生成单元,其包括预存储基于随机数序列而计算的一个或多个归一化谱的归一化谱存储单元,并且基于与文本相对应的浊音的多个分段和存储在归一化谱存储单元中的归一化谱来生成浊音波形;清音生成单元,其基于与文本相对应的清音的多个分段来生成清音波形;以及合成话音生成单元,其基于由浊音生成单元生成的浊音波形和由清音生成单元生成的清音波形来生成合成话音。
本发明还提供了一种话音合成方法,用于生成输入文本的合成话音,包括:基于与文本相对应的浊音的多个分段和存储在用于预存储基于随机数序列而计算的归一化谱的归一化谱存储单元中的一个或多个归一化谱来生成浊音波形;基于与文本相对应的清音的多个分段来生成清音波形;以及,基于所生成的浊音波形和所生成的清音波形来生成合成话音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180016109.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:鞍乘型车辆的车架结构
- 下一篇:一种光控方向图可重构微带天线





