[发明专利]语音频谱生成模型的训练方法、装置及电子设备有效
申请号: | 202010858104.1 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112037760B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 陈志杰;孙涛;贾磊 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/047;G10L13/04;G10L25/30 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 频谱 生成 模型 训练 方法 装置 电子设备 | ||
本申请公开了一种语音频谱生成模型的训练方法、装置及电子设备,涉及语音合成和深度学习技术领域。具体实现方案为:将第一文字序列输入语音频谱生成模型,生成所述第一文字序列对应的模拟频谱序列,并根据预设损失函数,获取所述模拟频谱序列的第一损失值;将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型,获取所述模拟频谱序列的第二损失值,所述对抗损失函数模型为生成对抗网络模型;根据所述第一损失值和所述第二损失值,对所述语音频谱生成模型进行训练。所述对抗损失函数模型可基于生成对抗网络学习一个损失函数,并与预设损失函数结合训练所述语音频谱生成模型,使所述语音频谱生成模型生成的频谱序列更加清晰。
技术领域
本申请涉及数据处理技术领域,尤其涉及语音合成和深度学习技术领域,具体涉及一种语音频谱生成模型的训练方法、装置及电子设备。
背景技术
频谱生成技术是语音合成中非常重要的技术,频谱作为桥梁,将输入的文字序列和最终合成的音频联系起来。
现有技术中,语音频谱生成模型利用均方误差(Mean Square Error,MSE)损失函数反馈所生成频谱的误差,但基于MSE损失函数进行建模不能反映频谱的本质,而导致生成的频谱非常的模糊。当声码器是用真实的清晰频谱进行训练时,将上述模糊的频谱输入声码器中,会导致声码器在训练和判断上的不一致,严重影响声码器的稳定性,影响最终合成音频的音质。
发明内容
本公开提供了一种用于语音频谱生成模型的训练方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种语音频谱生成模型的训练方法,包括:
将第一文字序列输入语音频谱生成模型,生成所述第一文字序列对应的模拟频谱序列,并根据预设损失函数,获取所述模拟频谱序列的第一损失值;
将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型,获取所述模拟频谱序列的第二损失值,所述对抗损失函数模型为生成对抗网络模型;
根据所述第一损失值和所述第二损失值,对所述语音频谱生成模型进行训练。
根据本公开的另一方面,提供了一种语音频谱生成模型的训练装置,包括:
第一获取模块,将第一文字序列输入语音频谱生成模型,生成所述第一文字序列对应的模拟频谱序列,并根据预设损失函数,获取所述模拟频谱序列的第一损失值;
第二获取模块,用于将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型,获取所述模拟频谱序列的第二损失值,所述对抗损失函数模型为生成对抗网络模型;
第一训练模块,用于根据所述第一损失值和所述第二损失值,对所述语音频谱生成模型进行训练。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面中的任一项方法。
根据本申请的技术可使所述语音频谱生成模型生成的频谱序列更加清晰,更加接近真实频谱序列的分布。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010858104.1/2.html,转载请声明来源钻瓜专利网。