[发明专利]音频合成方法、终端设备及计算机可读存储介质在审
申请号: | 202111562100.X | 申请日: | 2021-12-20 |
公开(公告)号: | CN114038474A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 庄晓滨 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/013 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 杜维 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 合成 方法 终端设备 计算机 可读 存储 介质 | ||
本申请实施例公开了一种音频合成方法、终端设备及计算机可读存储介质,其中方法包括:获取待合成音频;从待合成音频中提取第一基频和频谱包络,第一基频用于指示待合成音频的音高,频谱包络用于指示所述待合成音频的音色;调整第一基频,得到第二基频;根据第二基频和频谱包络得到合成音频,合成音频的频谱包络与待合成音频的频谱包络一致。本申请可以应用于歌声修音、歌声合成等音频处理领域,在改变音高的同时,保持音色特点。相较于现有的重采样技术,本申请避免了信号抽取或者插值带来的误差,在达到修音目的的同时提高了输出音频的音质。
技术领域
本发明涉及音频处理技术领域,尤其涉及一种音频合成方法、终端设备及计算机可读存储介质。
背景技术
随着人工智能技术及音频处理技术的发展,满足多样化的音频合成需求逐渐成为了可能。例如,在不同的领域需求中,可以通过改变或保留原始音频的音高(音调),以实现修音的目的。目前,对原始音频的信号进行重采样就能实现变速变调的听感输出。在此基础上添加合适的变速模块,即可实现变调不变速的效果。然而,在对信号进行重采样时,无法避免因信号抽取丢失及插值估测错误带来的误差,该误差会使得合成音频的听感与原始音频在音质上差异较大,合成音频质量不高。
发明内容
本申请实施例提供一种音频合成方法、终端设备及计算机可读存储介质,可以提高合成音频的音质。
第一方面,本申请实施例提供了一种音频合成方法,该方法包括:获取待合成音频;从待合成音频中提取第一基频和频谱包络,第一基频用于指示待合成音频的音高,频谱包络用于指示待合成音频的音色;调整第一基频,得到第二基频;根据第二基频和频谱包络得到合成音频,合成音频的频谱包络和待合成音频的频谱包络一致。基于第一方面所描述的方法,可以在改变输出音频的基频(音高)的同时,保持输出音频的频谱包络(音色)和输入的频谱包络一致。相较于现有的重采样技术,避免了信号抽取或者插值带来的误差,在达到修音目的的同时提高了合成音频的音质。
在一种可能实现方式中,根据第二基频和频谱包络得到合成音频,具体包括:调用训练完成的第一残差网络模型和训练完成的第二残差网络模型,对频谱包络进行处理,得到第一结果和第二结果;根据第一结果与第二基频的嵌入向量得到第三结果;将第二结果与第三结果叠加得到声学特征;调用训练完成的音频合成模型对声学特征进行处理,得到合成音频。
在一种可能实现方式中,训练完成的音频合成模型由一层卷积层和N层转置卷积层依次连接组成,N为大于1的正整数,调用训练完成的音频合成模型对声学特征进行处理,得到合成音频,具体包括:调用卷积层,对声学特征进行卷积处理,得到第四结果;调用N层转置卷积层对第四结果进行转置卷积处理,得到N个转置卷积结果;将N个转置卷积结果中的M个转置卷积结果进行线性差值变换后,逐层叠加得到合成音频;所述M为小于N的正整数。
在一种可能实现方式中,N层转置卷积层对应的N个通道缩小倍数的乘积与声学特征的维度分量相同。
在一种可能实现方式中,该方法还包括:基于训练样本集和训练样本集的合成音频,确定第一训练损失值;调用判别模型,对训练样本集的合成音频进行真假判别,确定第二训练损失值;根据第一训练损失值和第二训练损失值,训练第一残差网络模型、第二残差网络模型、音频合成模型及判别模型中的参数,以得到训练完成的第一残差网络模型、训练完成的第二残差网络模型及训练完成的音频合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111562100.X/2.html,转载请声明来源钻瓜专利网。