[发明专利]语音合成方法、模型训练方法及装置、计算机设备和车辆在审
申请号: | 202210251577.4 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114596836A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 徐培来 | 申请(专利权)人: | 北京宾理信息科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/027;G10L13/033 |
代理公司: | 北京市汉坤律师事务所 11602 | 代理人: | 魏小薇;吴丽丽 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 模型 训练 装置 计算机 设备 车辆 | ||
提供了一种语音合成方法、模型训练方法及装置、计算机设备和车辆。语音合成方法包括:获取用于进行语音合成的目标图像和目标文本,目标图像包括作为虚拟人物形象的目标对象;将目标图像输入经训练的声音特征提取模型,以得到声音特征提取模型输出的目标对象的声音特征;以及将声音特征和目标文本输入经训练的语音合成模型,以得到语音合成模型输出的目标文本对应的目标语音。
技术领域
本公开涉及音频处理技术领域,特别是涉及一种语音合成方法及装置、声音特征提取模型的训练方法及装置、文本到语音转换TTS模型的训练方法及装置、计算机设备、车辆、计算机可读存储介质和计算机程序产品。
背景技术
语音合成,又称文语转换(Text To speech,TTS),指的是利用电子计算机或一些专门装置来产生人造语音的技术,其能够将任意文本信息转化为语音信息并输出。
语音合成技术在人机交互场景中得到了广泛应用。例如,车载设备、智能家居设备、移动终端等电子设备可以利用语音合成技术,基于文本信息生成语音音频,并通过扬声器将生成的语音音频播报给用户,从而实现用户与电子设备之间的语音交互。
发明内容
提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
根据本公开的一方面,提供了一种语音合成方法,包括:获取用于进行语音合成的目标图像和目标文本,所述目标图像包括作为虚拟人物形象的目标对象;将所述目标图像输入经训练的声音特征提取模型,以得到所述声音特征提取模型输出的所述目标对象的声音特征;以及将所述声音特征和所述目标文本输入经训练的语音合成模型,以得到所述语音合成模型输出的所述目标文本对应的目标语音。
根据本公开的一方面,提供了一种声音特征提取模型的训练方法,包括:获取样本图像和所述样本图像的标注数据,所述样本图像包括作为虚拟人物形象的样本对象,所述标注数据包括所述样本对象的样本声音特征;将所述样本图像输入所述声音特征提取模型,以得到所述声音特征提取模型输出的预测声音特征;基于所述预测声音特征和所述样本声音特征,确定所述声音特征提取模型的损失值;以及基于所述损失值,调整所述声音特征提取模型的参数。
根据本公开的一方面,提供了一种文本到语音转换TTS模型的训练方法,所述TTS模型包括声音特征提取模型和语音合成模型,所述语音合成模型包括频谱合成模块和声码模块,所述方法包括:获取样本图像、样本文本和标注数据,所述样本图像包括作为虚拟人物形象的样本对象,所述标注数据包括与所述样本文本对应的所述样本对象的样本语音;提取所述样本语音的样本语音频谱特征;基于所述样本图像、所述样本文本和所述样本语音频谱特征,联合训练所述声音特征提取模型和所述频谱合成模块;以及基于所述样本图像、所述样本文本、所述样本语音和经训练的所述声音特征提取模型和所述频谱合成模块,训练所述声码模块。
根据本公开的一方面,提供了一种语音合成装置,包括:获取单元,被配置为获取用于进行语音合成的目标图像和目标文本,所述目标图像包括作为虚拟人物形象的目标对象;提取单元,被配置为将所述目标图像输入经训练的声音特征提取模型,以得到所述声音特征提取模型输出的所述目标对象的声音特征;以及合成单元,被配置为将所述声音特征和所述目标文本输入经训练的语音合成模型,以得到所述语音合成模型输出的所述目标文本对应的目标语音。
根据本公开的一方面,提供了一种声音特征提取模型的训练装置,包括:获取单元,被配置为获取样本图像和所述样本图像的标注数据,所述样本图像包括作为虚拟人物形象的样本对象,所述标注数据包括所述样本对象的样本声音特征;提取单元,被配置为将所述样本图像输入所述声音特征提取模型,以得到所述声音特征提取模型输出的预测声音特征;确定单元,被配置为基于所述预测声音特征和所述样本声音特征,确定所述声音特征提取模型的损失值;以及调整单元,被配置为基于所述损失值,调整所述声音特征提取模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宾理信息科技有限公司,未经北京宾理信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210251577.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搅拌球磨机
- 下一篇:一种用于环保泡沫轻质土拼接拓宽公路路堤结构