[发明专利]一种语音合成模型的训练方法及一种语音合成方法在审

申请号：	202010175459.0	申请日：	2020-03-13
公开（公告）号：	CN113450756A	公开（公告）日：	2021-09-28
发明（设计）人：	杨丽兵	申请（专利权）人：	TCL科技集团股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L13/047;G10L13/08
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	张全文
地址：	516006 广东省惠州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于计算机技术领域，尤其涉及一种语音合成模型的训练方法及一种语音合成方法。所述语音合成模型的训练方法包括：对第一语音样本进行发音标注，获取第一语音样本的文本序列；将第一语音样本及第一语音样本的文本序列成对地输入至预设的语音合成模型中进行处理，得到与第一语音样本的文本序列对应的输出音频及所述第一语音样本的音频特征；根据第一语音样本的音频特征和输出音频，对语音合成模型的参数进行调整，直至满足预设的训练条件，以得到已训练的语音合成模型。本申请中，能够基于方言的样本语音进行发音标注，进而得到能够合成具备该方言发音特点的语音合成模型，提高方言语音合成的质量。

技术领域

本申请属于计算机技术领域，尤其涉及一种语音合成模型的训练方法及一种语音合成方法。

背景技术

语音合成技术是指通过机械的、电子的方法产生人造语音的技术。文语转换技术(Text To Speech，TTS技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。目前基于深度学习的语音合成技术正在逐步成熟，能够合成普通话、英文等常见语言。然而，对于方言的语音合成质量仍然不高。

发明内容

本申请实施例提供了一种语音合成模型的训练方法、可读存储介质及终端设备，可以提高方言语音合成的质量。

第一方面，本申请实施例提供了一种语音合成模型的训练方法，包括：

对第一语音样本进行发音标注，获取第一语音样本的文本序列；

将所述第一语音样本及所述第一语音样本的文本序列成对地输入至预设的语音合成模型中，得到与所述第一语音样本的文本序列对应的输出音频以及所述第一语音样本的音频特征；

根据所述第一语音样本的音频特征和所述输出音频，对所述语音合成模型的参数进行调整，得到已训练的语音合成模型。

进一步地，所述语音合成模型包括音频处理模块、文本编码模块、解码模块以及合成模块；

所述将所述第一语音样本及所述第一语音样本的文本序列成对地输入至预设的语音合成模型中进行处理，得到与所述第一语音样本的文本序列对应的输出音频以及所述第一语音样本的音频特征，包括：

将所述第一语音样本输入至所述音频处理模块进行处理，以得到所述第一语音样本的音频特征；

将所述第一语音样本的文本序列输入至所述文本编码模块进行处理，以得到与所述文本序列对应的特征向量；

将所述文本序列对应的特征向量输入至所述解码模块进行处理，以得到与所述特征向量对应的频谱；

将所述频谱输入至所述合成模块进行处理，以得到所述输出音频。