[发明专利]一种语音合成模型的训练、语音合成方法及相关装置在审

申请号：	202210040692.7	申请日：	2022-01-14
公开（公告）号：	CN114187891A	公开（公告）日：	2022-03-15
发明（设计）人：	黄家鸿;李玉乐;项伟	申请（专利权）人：	百果园技术（新加坡）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/033
代理公司：	北京品源专利代理有限公司 11332	代理人：	马迪
地址：	新加坡巴西班让路***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成模型训练方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种语音合成模型的训练、语音合成方法及相关装置，该方法包括：获取原始频谱信号、说话者的音色嵌入特征，原始频谱信号转换自说话者按照文本信息说话时记录的原始语音信号，在声纹网络中，将原始频谱信号编码为声纹特征，声纹特征用于验证说话者的身份，在音色支持网络中，将原始频谱信号编码为音色补充特征，音色补充特征为声纹特征在音色上缺失的特征，将声纹特征与音色补充特征融合为音色总量特征，在音色嵌入特征修正音色总量特征的条件下，根据音色总量特征、原始频谱信号训练声学网络、音色支持网络。保证特征在音色上的全面性，从而拟合出高质量的频谱信号，提高拟合的频谱信号与作为目标的频谱信号在音色上的相似度。

技术领域

本发明涉及语音处理的技术领域，尤其涉及一种语音合成模型的训练、语音合成方法及相关装置。

背景技术

TTS(Text To Speech，文字转语音)旨在将文字转换为语音，是人机对话的一部分，让机器能够说话，而个性化的TTS是用户录制一段或者几段语音，机器提取语音中的音色进行模仿后，即，可输入任何文本让机器输出相应内容及相似音色的语音，在有声读物(模拟父母的音色给小孩讲故事)、导航播报(使用自己的声音播报导航指引)、个性化偶像等场景中广泛应用。

目前，个性化的TTS的实现方式之一要求用户录制一段语音，学习该语音的声纹，利用声纹和任意文本生成对应音色的频谱信号，但是，用声纹拟合的频谱信号与作为目标的频谱信号在音色上的相似度较低。

发明内容

本发明提出了一种语音合成模型的训练、语音合成方法及相关装置，以解决利用声纹拟合的频谱信号与作为目标的频谱信号在音色上的相似度较低的问题。

第一方面，本发明实施例提供了一种语音合成模型的训练方法，所述语音合成模型包括声纹网络、音色支持网络、声学网络，所述方法包括：

获取原始频谱信号、说话者的音色嵌入特征，所述原始频谱信号转换自所述说话者按照文本信息说话时记录的原始语音信号；

在所述声纹网络中，将所述原始频谱信号编码为声纹特征，所述声纹特征用于验证所述说话者的身份；

在所述音色支持网络中，将所述原始频谱信号编码为音色补充特征，所述音色补充特征为所述声纹特征在音色上缺失的特征；

将所述声纹特征与所述音色补充特征融合为音色总量特征；

在所述音色嵌入特征修正所述音色总量特征的条件下，根据所述音色总量特征、所述原始频谱信号训练所述声学网络、所述音色支持网络。

第二方面，本发明实施例还提供了一种语音合成方法，包括：

加载语音合成模型，所述语音合成模型包括声纹网络、音色支持网络、声学网络；

确定文本信息、说话者的原始语音信号；