[发明专利]一种语音合成模型训练方法、装置及电子设备有效
申请号: | 202110962778.0 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113781996B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 马达标;李蒙 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/047;G10L17/02 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 宋红艳 |
地址: | 100012 北京市双*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 模型 训练 方法 装置 电子设备 | ||
1.一种语音合成模型训练方法,其特征在于,所述方法包括:
根据语音合成任务采集对应的训练数据,所述训练数据包括:历史语音数据和对应的历史文本数据;
采用所述训练数据与语音合成任务对应的训练方式训练语音合成模型;
其中,所述语音合成模型包括:编码器、主解码器、N个次级解码器和说话人判别器;
所述主解码器将编码器输出的特征信息解析为不包含说话人信息的声学特征,所述说话人判别器判别主解码器输出的声学特征来自哪个说话人,每个次级解码器分别与所述主解码器相连;每个次级解码器均输出一个说话人对应的声学特征。
2.根据权利要求1所述的方法,其特征在于,所述语音合成模型为深度学习网络,所述主解码器和所述说话人判别器之间还包括梯度反转层,在训练深度学习网络时,所述梯度反转层将梯度的方向转置,以达到对抗学习的目的。
3.根据权利要求1或2所述的方法,其特征在于,所述语音合成任务为多说话人语音合成,对应的训练数据为:多个说话人的历史语音数据和对应的历史文本数据;
对应的训练方式为:将所述历史文本数据输入所述编码器,并将不同说话人的历史语音数据分别输入不同的次级解码器中,训练所述语音合成模型。
4.根据权利要求1或2所述的方法,其特征在于,所述语音合成任务为修正错误文本数据,对应的训练数据为:正确历史文本数据和至少一个错误历史文本数据;
对应的训练方式为:将正确历史文本数据和所述至少一个错误历史文本数据分别输入不同的次级解码器中训练所述语音合成模型。
5.根据权利要求1或2所述的方法,其特征在于,所述语音合成任务为数据迁移,对应的训练数据为:第一场景的多个说话人标准数据和第二场景的多个说话人小数据;所述标准数据的数量大于第一数据量,所述小数据的数量小于第二数据量;
对应的训练方式为:
基于所述多个说话人标准数据训练所述语音合成模型;
固定训练好的语音合成模型中编码器、主解码器、梯度反转层和说话人判别器的参数,基于所述多个说话人小数据进行迁移训练。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待合成文本;
根据待合成文本的语音合成任务选取对应训练方式训练好的语音合成模型;
根据待合成文本和选取的语音合成模型生成声学特征;
根据生成的声学特征进行语音合成。
7.一种语音合成模型训练装置,其特征在于,所述装置包括:
采集模块,用于根据语音合成任务采集对应的训练数据,所述训练数据包括:历史语音数据和对应的历史文本数据;
训练模块,用于采用所述训练数据与语音合成任务对应的训练方式训练语音合成模型;
其中,所述语音合成模型包括:编码器、主解码器、N个次级解码器和说话人判别器;
所述主解码器将编码器输出的特征信息解析为不包含说话人信息的声学特征,所述说话人判别器判别主解码器输出的声学特征来自哪个说话人,每个次级解码器分别与所述主解码器相连;每个次级解码器均输出一个说话人对应的声学特征。
8.根据权利要求7所述的装置,其特征在于,所述语音合成模型为深度学习网络,所述主解码器和所述说话人判别器之间还包括梯度反转层,在训练深度学习网络时,所述梯度反转层将梯度的方向转置,以达到对抗学习的目的。
9.根据权利要求7或8所述的装置,其特征在于,所述语音合成任务为多说话人语音合成;
所述采集模块,用于采集多个说话人的历史语音数据和对应的历史文本数据;
所述训练模块,用于将所述历史文本数据输入所述编码器,并将不同说话人的历史语音数据分别输入不同的次级解码器中,训练所述语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110962778.0/1.html,转载请声明来源钻瓜专利网。