[发明专利]语音波形生成有效
申请号: | 201880085612.1 | 申请日: | 2018-09-30 |
公开(公告)号: | CN111602194B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 崔洋;汪曦;何磊;宋謌平 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 贾丽萍 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 波形 生成 | ||
本公开内容提供了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征,其中声门特征包括相位特征、形状特征和能量特征。基于基频信息和声门特征通过第一神经网络模型来生成声门波形。基于声门波形和声道特征通过第二神经网络模型来生成语音波形。
背景技术
语音编码器用于统计参数语音合成(SPSS)系统中的语音参数化和波形生成。合成分析的质量反映了自然性和相似性的最终合成语音质量。基于源滤波器的语音编码器是参数化、修改和重构波形的最流行和高质量方法之一,例如,STRAIGHT、GlottDNN、IT-FTE等,提出这些方法以提高感知质量,同时缓解“嗡嗡”和“低沉”问题。存在两种广泛使用的根据文本来产生高质量语音的范例:统计参数语音合成(SPSS)和单位选择(US)。SPSS和UC方法之间的差异主要在于激励信号的提取和参数化方法。虽然现有的语音编码器已经提高了合成语音的感知质量,但是由于存在一些不准确的假设,其在参数化和重构阶段期间引起了不可避免的损失。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本公开内容的实施例提出了用于生成语音波形的方法和装置。可以接收与输入相关联的基频信息、声门特征和声道特征。声门特征可以包括相位特征、形状特征和能量特征。可以将声道特征参数化为线谱对(LSP)系数、线谱频率系数、线性预测滤波器系数、反射系数、对数面积比、线性谱系数、Mel谱系数、Mel频率倒谱系数(MFCC)等等。可以基于基频信息和声门特征通过第一神经网络模型来生成声门波形。可以基于声门波形和声道特征通过第二神经网络模型来生成语音波形。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示在其中可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了根据实施例可以在其中实现语音编码器的示例性文本转语音系统。
图2示出了根据实施例用于生成语音波形的示例性神经语音编码器系统。
图3示出了根据实施例通过神经网络实现的示例性通用声门源模型。
图4示出了根据实施例声门源模型中的神经网络的示例性结构。
图5示出了根据实施例的示例性通用声道模型。
图6示出了根据实施例通过神经网络实现的声道模型的示例性结构。
图7示出了根据实施例在图6中所示出的声道模型中采用的门控单元的示例性结构。
图8示出了根据实施例用于神经语音编码器的语音合成的示例性过程。
图9示出了根据实施例用于声门源模型的示例性训练过程。
图10示出了根据实施例用于声道模型的示例性训练过程。
图11示出了根据实施例在训练过程期间的示例性特征提取过程。
图12示出了根据实施例用于声门源模型和声道模型的示例性联合训练过程。
图13示出了根据实施例用于神经语音编码器的示例性方法的流程图。
图14示出了根据实施例用于神经语音编码器的示例性装置。
图15示出了根据实施例用于神经语音编码器的示例性装置。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880085612.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像读取装置
- 下一篇:蓄电器件以及蓄电器件的制造方法