[发明专利]语音合成模型产品在审
申请号: | 202211024404.5 | 申请日: | 2022-04-12 |
公开(公告)号: | CN115294963A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 柴萌鑫;林羽钦;黄智颖 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/027;G10L25/30 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 模型 产品 | ||
1.一种语音合成模型产品,包括编码器、解码器和声码器;
所述编码器为基于训练完成的所述解码器完成训练的编码器,所述编码器用于从待合成文本的音素向量中预测出语音特征和语音后验图,所述语音后验图中携带有口音信息;
所述解码器为训练完成的解码器,所述解码器用于基于所述语音特征和所述语音后验图,确定语音频谱,所述语音后验图用于指示每个音素对应的口音,以及每个音素持续的时长,所述解码器的训练先于所述编码器的训练;
所述声码器为训练完成的声码器,所述声码器用于根据所述语音频谱生成所述待合成文本对应的目标语音,所述目标语音的口音与所述语音后验图中的口音信息匹配。
2.根据权利要求1所述的语音合成模型产品,其中,
所述解码器通过以下方式先进行训练:从第一口音对应的音频样本中提取出语音特征和语音后验图;获取说话人向量;将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器,获取所述解码器输出的语音频谱;使用所述声码器基于所述语音频谱生成目标语音;根据所述目标语音和所述音频样本,对所述说话人向量进行调整,并以调整后的说话人向量作为新的说话人向量,返回将所述语音特征、所述语音后验图和所述说话人向量输入所述解码器继续执行,直至满足第一终止条件,以获得训练的解码器和说话人向量;
所述编码器通过以下方式基于训练完成的解码器进行训练:获取所述第一口音的音频样本对应的文本样本的音素向量样本;将所述音素向量样本输入所述编码器内,并获得所述编码器输出的语音特征和语音后验图;将所述语音特征、所述语音后验图和训练的说话人向量输入训练的解码器,以获得训练的解码器输出的语音频谱;使用所述声码器基于所述语音频谱生成目标语音;根据所述目标语音和所述音频样本,对所述编码器进行调整,并返回将所述音素向量样本输入所述编码器的步骤继续执行,直至满足第二终止条件,以获得训练的编码器。
3.根据权利要求1所述的语音合成模型产品,其中,所述编码器包括多个编码模块和方差适配器,所述编码模块用于从待合成文本的音素向量中提取上下文信息,所述方差适配器用于基于所述编码模块的输出数据预测所述语音特征和所述语音后验图。
4.根据权利要求3所述的语音合成模型产品,其中,所述方差适配器包括:
基频预测单元,用于基于所述编码模块的输出数据,输出各音素对应的基频;
能量预测单元,用于基于所述编码模块的输出数据,输出各音素对应的能量;
语音后验图预测单元,用于基于所述编码模块的输出数据,输出语音后验图。
5.根据权利要求4所述的语音合成模型产品,其中,所述基频为归一化对数尺度基频。
6.根据权利要求1所述的语音合成模型产品,其中,所述解码器包括多个解码模块,所述解码模块用于基于输入的语音特征、语音后验图和预设的说话人向量,生成语音频谱。
7.根据权利要求6所述的语音合成模型产品,其中,所述解码模块包括:
多头自注意力层,用于基于编码器输出的编码数据拼接位置信息作为解码输入数据,对所述解码输入数据进行处理,获得第三特征信息;
一个解码归一化层,用于根据第三特征信息和解码输入数据,输出第三归一化结果;
解码一维卷积层,用于根据第三归一化结果,获得第四特征信息;
另一个解码归一化层,用于根据第四特征信息和第三归一化结果,获得第四归一化结果;
线性层,用于根据第四归一化结果,输出语音频谱。
8.根据权利要求1-7任一项所述的语音合成模型产品,其中,所述编码器和所述解码器均为非自回归结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211024404.5/1.html,转载请声明来源钻瓜专利网。