[发明专利]语音频谱生成模型的训练方法、装置及电子设备有效

申请号：	202010858104.1	申请日：	2020-08-24
公开（公告）号：	CN112037760B	公开（公告）日：	2022-01-07
发明（设计）人：	陈志杰;孙涛;贾磊	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/047;G10L13/04;G10L25/30
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	许静;黄灿
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音频谱生成模型训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音频谱生成模型的训练方法、装置及电子设备，涉及语音合成和深度学习技术领域。具体实现方案为：将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。所述对抗损失函数模型可基于生成对抗网络学习一个损失函数，并与预设损失函数结合训练所述语音频谱生成模型，使所述语音频谱生成模型生成的频谱序列更加清晰。

技术领域

本申请涉及数据处理技术领域，尤其涉及语音合成和深度学习技术领域，具体涉及一种语音频谱生成模型的训练方法、装置及电子设备。

背景技术

频谱生成技术是语音合成中非常重要的技术，频谱作为桥梁，将输入的文字序列和最终合成的音频联系起来。

现有技术中，语音频谱生成模型利用均方误差(Mean Square Error，MSE)损失函数反馈所生成频谱的误差，但基于MSE损失函数进行建模不能反映频谱的本质，而导致生成的频谱非常的模糊。当声码器是用真实的清晰频谱进行训练时，将上述模糊的频谱输入声码器中，会导致声码器在训练和判断上的不一致，严重影响声码器的稳定性，影响最终合成音频的音质。

发明内容

本公开提供了一种用于语音频谱生成模型的训练方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音频谱生成模型的训练方法，包括：

将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；

根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

根据本公开的另一方面，提供了一种语音频谱生成模型的训练装置，包括：

第一获取模块，将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

第二获取模块，用于将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；

第一训练模块，用于根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及