[发明专利]音频合成方法、终端设备及计算机可读存储介质在审
申请号: | 202111562100.X | 申请日: | 2021-12-20 |
公开(公告)号: | CN114038474A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 庄晓滨 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/013 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 杜维 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 合成 方法 终端设备 计算机 可读 存储 介质 | ||
1.一种音频合成方法,其特征在于,所述方法包括:
获取待合成音频;
从所述待合成音频中提取第一基频和频谱包络,所述第一基频用于指示所述待合成音频的音高,所述频谱包络用于指示所述待合成音频的音色;
调整所述第一基频,得到第二基频;
根据所述第二基频和所述频谱包络得到合成音频,所述合成音频的频谱包络与所述待合成音频的频谱包络一致。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二基频和所述频谱包络得到合成音频,包括:
调用训练完成的第一残差网络模型和训练完成的第二残差网络模型,对所述频谱包络进行处理,得到第一结果和第二结果;
根据所述第一结果与所述第二基频的嵌入向量得到第三结果;
将所述第二结果与所述第三结果叠加得到声学特征;
调用训练完成的音频合成模型对所述声学特征进行处理,得到所述合成音频。
3.根据权利要求2所述的方法,其特征在于,所述训练完成的音频合成模型由一层卷积层和N层转置卷积层依次连接组成,N为大于1的正整数,所述调用训练完成的音频合成模型对所述声学特征进行处理,得到所述合成音频,包括:
调用所述卷积层,对所述声学特征进行卷积处理,得到第四结果;
调用所述N层转置卷积层对所述第四结果进行转置卷积处理,得到N个转置卷积结果;
将所述N个转置卷积结果中的M个转置卷积结果进行线性差值变换后,逐层叠加得到所述合成音频;M为小于N的正整数。
4.根据权利要求3所述的方法,其特征在于,所述N层转置卷积层对应的N个通道缩小倍数的乘积与所述声学特征的维度分量相同。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于训练样本集和所述训练样本集的合成音频,确定第一训练损失值;
调用判别模型,对所述训练样本集的合成音频进行真假判别,确定第二训练损失值;
根据所述第一训练损失值和所述第二训练损失值,训练所述第一残差网络模型、所述第二残差网络模型、所述音频合成模型及所述判别模型中的参数,以得到所述训练完成的第一残差网络模型、所述训练完成的第二残差网络模型及所述训练完成的音频合成模型。
6.根据权利要求5所述的方法,其特征在于,所述判别模型包括均池化层、判别层,所述判别层由一层卷积层、一层最大池化层和两层卷积层依次连接组成;所述均池化层包括第一均池化层和第二均池化层,所述判别层包括第一判别层、第二判别层和第三判别层;
所述调用判别模型,对所述训练样本集的合成音频进行真假判别,确定第二训练损失值,具体包括:
调用所述第一判别层,对所述训练样本集的合成音频进行真假判别,得到第一判别结果;
调用所述第一均池化层对所述训练样本集的合成音频进行均池化处理,得到第一均池化结果;调用所述第二判别层对所述第一均池化结果进行真假判别,得到第二判别结果;
调用所述第二均池化层对所述第一均池化结果进行均池化处理,得到第二均池化结果;调用所述第三判别层对所述第二均池化结果进行真假判别,得到第三判别结果;
根据所述第一判别结果、所述第二判别结果和所述第三判别结果,确定所述第二训练损失值。
7.根据权利要求5所述的方法,其特征在于,所述基于训练样本集和所述训练样本集的合成音频,确定第一训练损失值,包括:
确定所述训练样本集的第一梅尔谱和所述训练样本集的合成音频的第二梅尔谱;
确定所述第一训练损失值为所述第一梅尔谱和所述第二梅尔谱的最小均方误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111562100.X/1.html,转载请声明来源钻瓜专利网。