[发明专利]语音波形生成有效
申请号: | 201880085612.1 | 申请日: | 2018-09-30 |
公开(公告)号: | CN111602194B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 崔洋;汪曦;何磊;宋謌平 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/00 | 分类号: | G10L13/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 贾丽萍 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 波形 生成 | ||
1.一种用于生成语音波形的方法,包括:
接收与输入相关联的基频信息、声门特征和声道特征,其中,所述声门特征包括相位特征、形状特征和能量特征;
基于所述基频信息和所述声门特征通过第一神经网络模型来生成声门波形;以及
基于所述声门波形和所述声道特征通过第二神经网络模型来生成语音波形。
2.根据权利要求1所述的方法,其中,所述相位特征通过相位矢量来表示,所述形状特征通过形状矢量来表示,并且所述能量特征通过能量矢量来表示,以及其中,生成所述声门波形还包括:
根据所述相位矢量形成相位矩阵;
通过非线性地通过所述第一神经网络模型的第一部分转换所述相位矩阵,来构造基于相位的加权矩阵;
基于所述基频信息、所述形状矢量和所述能量矢量通过所述第一神经网络模型的第二部分,来生成特性波形特征;以及
根据所述基于相位的加权矩阵和所述特性波形特征来获得所述声门波形。
3.根据权利要求2所述的方法,其中,通过将所述基于相位的加权矩阵与所述特性波形特征相乘,通过所述第一神经网络模型的第三部分,来获得所述声门波形。
4.根据权利要求1所述的方法,其中,以帧为基础来执行对所述语音波形的所述生成。
5.根据权利要求4所述的方法,还包括:
接收前一帧语音波形,以及
其中,生成所述语音波形还基于所述前一帧语音波形。
6.根据权利要求5所述的方法,其中,生成所述语音波形还包括:
基于所述声门波形和所述声道特征通过所述第二神经网络模型的第一部分,获得零状态响应;
基于所述声道特征和所述前一帧语音波形通过所述第二神经网络模型的第二部分,获得零输入响应;以及
通过对所述零状态响应和所述零输入响应进行组合,来获得所述语音波形。
7.根据权利要求6所述的方法,其中,所述第二神经网络模型的所述第一部分和所述第二部分分别用于执行非线性变换。
8.根据权利要求6所述的方法,其中,所述第二神经网络模型的所述第一部分包括用于组合所述声门波形和所述声道特征的至少一个门控单元,以及所述第二神经网络模型的所述第二部分包括用于组合所述声道特征和所述前一帧语音波形的至少一个门控单元。
9.根据权利要求1所述的方法,其中,所述输入是文本输入,以及其中,基于所述文本输入通过文本转语音(TTS)处理,来生成与所述输入相关联的所述基频信息、所述声门特征和所述声道特征。
10.根据权利要求1所述的方法,其中,通过以下方式训练所述第一神经网络模型:
接收包括声门源信号和声道训练特征的训练语音信号;
从所述声门源信号中提取基频训练信息、相位训练特征、形状训练特征和能量训练特征;
基于所述基频训练信息、所述相位训练特征、所述形状训练特征和所述能量训练特征通过所述第一神经网络模型,获得重构的声门波形;
将所述重构的声门波形与所述声门源信号进行比较,以获得声门波形误差;以及
基于所述声门波形误差来优化所述第一神经网络模型。
11.根据权利要求10所述的方法,其中,所述提取步骤还包括:
通过声门反向滤波,从所述训练语音信号中获得所述声门源信号;
对所述声门源信号执行浊音/清音检测,以识别浊音段和清音段;
对所述浊音段执行声门闭合时刻(GCI)检测,以获得所述浊音段的所述基频训练信息;
将所述基频训练信息内插到所述清音段;以及
基于所述基频训练信息,从所述浊音段和所述清音段中获得所述相位训练特征、所述形状训练特征和所述能量训练特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880085612.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像读取装置
- 下一篇:蓄电器件以及蓄电器件的制造方法