[发明专利]语音合成信息编辑设备有效
申请号: | 201110396819.0 | 申请日: | 2011-12-02 |
公开(公告)号: | CN102486921A | 公开(公告)日: | 2012-06-06 |
发明(设计)人: | 入山达也 | 申请(专利权)人: | 雅马哈株式会社 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;张天舒 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 信息 编辑 设备 | ||
技术领域
本发明涉及一种对用于语音合成的信息(语音合成信息)进行编辑的技术。
背景技术
在传统的语音合成技术中,作为合成对象的语音(下文中称为合成语音)的每个音素的持续时间被指定为可变。日本专利申请公开No.Hei06-67685描述了如下技术,其中当指示对根据目标任意字符串指定的音素的时间序列在时间轴上进行扩展或压缩时,以取决于音素类型(元音/辅音)的扩展/压缩度来增大/减小每个音素的持续时间。
不过,由于实际语音中每个音素的持续时间不仅仅取决于音素类型,因此难以利用日本专利申请公开No.Hei06-67685中描述的以仅取决于音素类型的扩展/压缩度来对每个音素的持续时间进行扩展/压缩的构造来合成听起来自然的语音。
发明内容
鉴于上述情况,本发明的一个目的是生成语音合成信息,其即使在时间轴上执行扩展/压缩的情况下也能够合成听起来自然的语音(下文称为合成自然语音)。
本发明通过如下手段来实现该目的。在后续说明中,尽管将对应于本发明要素的后述实施例的要素引用在括号中以利于更好的理解,但是这种括号引用并非意在将本发明的范围限制为这些实施例。
根据本发明第一方面的语音合成信息编辑设备包括:音素存储单元(例如存储装置12),其存储音素信息(例如音素信息SA),所述音素信息指示要合成的语音的每个音素的持续时间;特征存储单元(例如存储装置12),其存储特征信息(例如特征信息SB),所述特征信息指示语音的特征的时间变化;和编辑处理单元(例如编辑处理器24),其根据扩展/压缩度(例如扩展/压缩度K(n))改变由所述音素信息指示的每个音素的持续时间,所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。与仅取决于音素类型来设置扩展/压缩度的构造相比,通过上述构造可以生成能够合成听起来自然的语音的语音合成信息,因为以取决于每个音素特征的扩展/压缩度来改变(扩展/压缩)相应音素的持续时间。
例如,在特征信息指示音高(pitch)的时间变化的构造中,当扩展要合成的语音时,优选的是编辑处理单元将扩展/压缩度设置为根据特征可变,于是音素持续时间的扩展度随着特征信息所指示的音素的音高变高而增大。通过这种方式可以生成自然语音,其中反映了随着音高升高而增大扩展度的倾向。另外,在压缩合成语音时,编辑处理单元可以将扩展/压缩度设置为在压缩语音时随特征可变,于是音素的持续时间的压缩度随着特征信息所指示的音素的音高变低而增大。通过这种方式可以生成自然语音,其中反映了随着音高降低而增大压缩度的倾向。
另外,在特征信息指示音量的时间变化的构造中,在扩展合成语音时,期望编辑处理单元将扩展/压缩度设置为根据特征可变,于是音素持续时间的扩展度随着特征信息所指示的音素的音量变大而增大。通过这种方式可以生成自然语音,其中反映了随着音量增大而增大扩展度的倾向。另外,在压缩合成语音时,编辑处理单元可以将扩展/压缩度设置为随特征可变,于是音素的持续时间的压缩度随着特征信息所指示的音素的音量变小而增大。通过这种方式可以生成自然语音,其中反映了随着音量变小而增大压缩度的倾向。
同时,特征与扩展/压缩度之间的关系不限于上述示例。例如,假设扩展度随着音高降低而增大,则将扩展/压缩度设置为对于具有较高音高的音素而降低扩展度,并且假设扩展度随着音量增大而降低,将扩展/压缩度设置为对于具有较大音量的音素而降低扩展度。
根据本发明的优选实施例的语音合成信息编辑设备还包括显示控制单元,其在显示装置上显示包括音素序列图像(例如音素序列图像32)和特征轮廓图像(例如特征轮廓图像34)的编辑屏幕,所述音素序列图像是在时间轴上排列的与语音的音素对应的音素指示符(例如音素指示符42)的序列,每个音素指示符具有根据特征信息所指示的持续时间而设置的长度,所述特征轮廓图像表示在同一时间轴上排列的由特征信息指示的特征的时间序列,所述显示控制单元还基于编辑处理单元的处理结果更新编辑屏幕。通过这种方式,用户可以直观地了解每个音素的扩展/压缩,这是因为音素序列图像和特征轮廓图像以共同的时间轴显示在显示装置上。
在本发明的优选方面中,特征信息指示针对在时间轴上排列的音素的每个编辑点(例如编辑点α)的特征,并且所述编辑处理单元对特征信息进行更新,以使得编辑点相对音素的发声区间的位置在每个音素的持续时间改变前后得以保持。根据该方面,可以在保持时间轴上的编辑点在每个音素的发声区间中的位置的同时对每个音素进行扩展/压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅马哈株式会社,未经雅马哈株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110396819.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双加热管的控制器
- 下一篇:端到端组播标签交换路径的建立方法、装置及系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置