[发明专利]一种语音合成模型的训练方法及一种语音合成方法在审
申请号: | 202010175459.0 | 申请日: | 2020-03-13 |
公开(公告)号: | CN113450756A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 杨丽兵 | 申请(专利权)人: | TCL科技集团股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/047;G10L13/08 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 张全文 |
地址: | 516006 广东省惠州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 模型 训练 方法 | ||
本申请适用于计算机技术领域,尤其涉及一种语音合成模型的训练方法及一种语音合成方法。所述语音合成模型的训练方法包括:对第一语音样本进行发音标注,获取第一语音样本的文本序列;将第一语音样本及第一语音样本的文本序列成对地输入至预设的语音合成模型中进行处理,得到与第一语音样本的文本序列对应的输出音频及所述第一语音样本的音频特征;根据第一语音样本的音频特征和输出音频,对语音合成模型的参数进行调整,直至满足预设的训练条件,以得到已训练的语音合成模型。本申请中,能够基于方言的样本语音进行发音标注,进而得到能够合成具备该方言发音特点的语音合成模型,提高方言语音合成的质量。
技术领域
本申请属于计算机技术领域,尤其涉及一种语音合成模型的训练方法及一种语音合成方法。
背景技术
语音合成技术是指通过机械的、电子的方法产生人造语音的技术。文语转换技术(Text To Speech,TTS技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。目前基于深度学习的语音合成技术正在逐步成熟,能够合成普通话、英文等常见语言。然而,对于方言的语音合成质量仍然不高。
发明内容
本申请实施例提供了一种语音合成模型的训练方法、可读存储介质及终端设备,可以提高方言语音合成的质量。
第一方面,本申请实施例提供了一种语音合成模型的训练方法,包括:
对第一语音样本进行发音标注,获取第一语音样本的文本序列;
将所述第一语音样本及所述第一语音样本的文本序列成对地输入至预设的语音合成模型中,得到与所述第一语音样本的文本序列对应的输出音频以及所述第一语音样本的音频特征;
根据所述第一语音样本的音频特征和所述输出音频,对所述语音合成模型的参数进行调整,得到已训练的语音合成模型。
进一步地,所述语音合成模型包括音频处理模块、文本编码模块、解码模块以及合成模块;
所述将所述第一语音样本及所述第一语音样本的文本序列成对地输入至预设的语音合成模型中进行处理,得到与所述第一语音样本的文本序列对应的输出音频以及所述第一语音样本的音频特征,包括:
将所述第一语音样本输入至所述音频处理模块进行处理,以得到所述第一语音样本的音频特征;
将所述第一语音样本的文本序列输入至所述文本编码模块进行处理,以得到与所述文本序列对应的特征向量;
将所述文本序列对应的特征向量输入至所述解码模块进行处理,以得到与所述特征向量对应的频谱;
将所述频谱输入至所述合成模块进行处理,以得到所述输出音频。
进一步地,所述对所述第一语音样本进行发音标注,获取第一语音样本的文本序列,包括:
根据第一语音样本构建第一数据集;
基于所述第一数据集对所述第一语音样本进行发音标注,获取第一语音样本的文本序列。
具体地,由于第一数据集中已包括了该方言各个字的发音标签,因此通过遍历该第一数据集就能够确定出第一语音样本对应的文本中各个字的发音标签,并基于预设的编码规则就能够确定出该第一语音样本的文本序列。
进一步地,所述根据第一语音样本构建第一数据集,包括:
根据所述第一语音样本对所述第一语音样本对应的文本进行发音标注并确定第一数据集中每个字的发音标签。
进一步地,所述基于所述第一数据集对所述第一语音样本进行发音标注,获取第一语音样本的文本序列,包括:
遍历所述第一数据集,对所述第一语音样本的各个字进行发音标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL科技集团股份有限公司,未经TCL科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010175459.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空气处理模块和电器
- 下一篇:一种模拟场景摄影自助学习系统的实现方法