[发明专利]语音合成方法、装置、服务器及存储介质在审
| 申请号: | 202110342399.1 | 申请日: | 2021-03-30 |
| 公开(公告)号: | CN113096634A | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 孙奥兰;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/027 |
| 代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 贺小旺 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 装置 服务器 存储 介质 | ||
1.一种语音合成方法,其特征在于,包括:
获取语音样本,所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签;
调用待训练的语音合成模型,所述语音合成模型包括参考编码器、嵌入层和解码器;
将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;
将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量;
将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;
获取所述语音数据的真实梅尔频谱,并根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;
获取待合成语音的目标语音情绪标签和目标身份标签,将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型,得到所述待合成语音的梅尔频谱;
根据所述待合成语音的梅尔频谱,生成目标语音信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述嵌入层包括第一嵌入层和第二嵌入层;所述将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量,包括:
将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合,得到组合特征向量;
将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量。
3.如权利要求2所述的语音合成方法,其特征在于,所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量之前,还包括:
调整所述组合特征向量和/或所述文本特征向量,使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致;
所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量,包括:
将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量。
4.如权利要求3所述的语音合成方法,其特征在于,所述调整所述组合特征向量和/或所述文本特征向量,包括:
确定待调整的目标矩阵尺寸;
获取所述组合特征向量的第一矩阵尺寸,根据所述目标矩阵尺寸和所述第一矩阵尺寸,确定所述组合特征向量的待调整的第一矩阵位置;
通过预设标识填充待调整的所述第一矩阵位置;和/或
获取所述文本特征向量的第二矩阵尺寸,根据所述目标矩阵尺寸和所述第二矩阵尺寸,确定所述文本特征向量的待调整的第二矩阵位置;
通过预设标识填充待调整的所述第二矩阵位置。
5.如权利要求1所述的语音合成方法,其特征在于,所述根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛,包括:
根据所述梅尔频谱和真实梅尔频谱,计算所述语音合成模型的模型损失值;
基于所述模型损失值更新所述语音合成模型的模型参数,根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练;
当确定更新模型参数的所述语音合成模型处于收敛状态,得到训练好的语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110342399.1/1.html,转载请声明来源钻瓜专利网。





