[发明专利]音频合成方法、终端设备及计算机可读存储介质在审

申请号：	202111562100.X	申请日：	2021-12-20
公开（公告）号：	CN114038474A	公开（公告）日：	2022-02-11
发明（设计）人：	庄晓滨	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G10L21/013
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	杜维
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频合成方法终端设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种音频合成方法、终端设备及计算机可读存储介质，其中方法包括：获取待合成音频；从待合成音频中提取第一基频和频谱包络，第一基频用于指示待合成音频的音高，频谱包络用于指示所述待合成音频的音色；调整第一基频，得到第二基频；根据第二基频和频谱包络得到合成音频，合成音频的频谱包络与待合成音频的频谱包络一致。本申请可以应用于歌声修音、歌声合成等音频处理领域，在改变音高的同时，保持音色特点。相较于现有的重采样技术，本申请避免了信号抽取或者插值带来的误差，在达到修音目的的同时提高了输出音频的音质。

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频合成方法、终端设备及计算机可读存储介质。

背景技术

随着人工智能技术及音频处理技术的发展，满足多样化的音频合成需求逐渐成为了可能。例如，在不同的领域需求中，可以通过改变或保留原始音频的音高(音调)，以实现修音的目的。目前，对原始音频的信号进行重采样就能实现变速变调的听感输出。在此基础上添加合适的变速模块，即可实现变调不变速的效果。然而，在对信号进行重采样时，无法避免因信号抽取丢失及插值估测错误带来的误差，该误差会使得合成音频的听感与原始音频在音质上差异较大，合成音频质量不高。

发明内容

本申请实施例提供一种音频合成方法、终端设备及计算机可读存储介质，可以提高合成音频的音质。

第一方面，本申请实施例提供了一种音频合成方法，该方法包括：获取待合成音频；从待合成音频中提取第一基频和频谱包络，第一基频用于指示待合成音频的音高，频谱包络用于指示待合成音频的音色；调整第一基频，得到第二基频；根据第二基频和频谱包络得到合成音频，合成音频的频谱包络和待合成音频的频谱包络一致。基于第一方面所描述的方法，可以在改变输出音频的基频(音高)的同时，保持输出音频的频谱包络(音色)和输入的频谱包络一致。相较于现有的重采样技术，避免了信号抽取或者插值带来的误差，在达到修音目的的同时提高了合成音频的音质。

在一种可能实现方式中，根据第二基频和频谱包络得到合成音频，具体包括：调用训练完成的第一残差网络模型和训练完成的第二残差网络模型，对频谱包络进行处理，得到第一结果和第二结果；根据第一结果与第二基频的嵌入向量得到第三结果；将第二结果与第三结果叠加得到声学特征；调用训练完成的音频合成模型对声学特征进行处理，得到合成音频。

在一种可能实现方式中，训练完成的音频合成模型由一层卷积层和N层转置卷积层依次连接组成，N为大于1的正整数，调用训练完成的音频合成模型对声学特征进行处理，得到合成音频，具体包括：调用卷积层，对声学特征进行卷积处理，得到第四结果；调用N层转置卷积层对第四结果进行转置卷积处理，得到N个转置卷积结果；将N个转置卷积结果中的M个转置卷积结果进行线性差值变换后，逐层叠加得到合成音频；所述M为小于N的正整数。

在一种可能实现方式中，N层转置卷积层对应的N个通道缩小倍数的乘积与声学特征的维度分量相同。

在一种可能实现方式中，该方法还包括：基于训练样本集和训练样本集的合成音频，确定第一训练损失值；调用判别模型，对训练样本集的合成音频进行真假判别，确定第二训练损失值；根据第一训练损失值和第二训练损失值，训练第一残差网络模型、第二残差网络模型、音频合成模型及判别模型中的参数，以得到训练完成的第一残差网络模型、训练完成的第二残差网络模型及训练完成的音频合成模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技（深圳）有限公司，未经腾讯音乐娱乐科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111562100.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种以生物质制备的片层碳为载体的复合加氢脱硫催化剂的制备方法
下一篇：一种六自由度差分式绳驱机械臂

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频合成方法、终端设备及计算机可读存储介质在审

专利文献下载