[发明专利]一种声码器的训练方法、音频合成的方法和装置在审

专利信息
申请号: 202310186600.0 申请日: 2023-03-01
公开(公告)号: CN116129921A 公开(公告)日: 2023-05-16
发明(设计)人: 吴雨璇;宋伟;张政臣;吴友政;何晓冬 申请(专利权)人: 京东科技信息技术有限公司
主分类号: G10L19/16 分类号: G10L19/16;G10L13/06;G10L25/24;G10L25/30;G10L21/007
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 李娜;张效荣
地址: 100176 北京市大兴区北京经*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 声码 训练 方法 音频 合成 装置
【说明书】:

发明公开了一种声码器的训练方法、音频合成的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将训练集样本输入到生成器中,训练集样本包括多个音频特征样本和与每个音频特征样本对应的真实音频;在生成器中,对音频特征样本进行压缩处理,获得压缩后的音频特征样本;对压缩后的音频特征样本进行卷积处理和解压缩处理,获得与音频特征样本对应的生成音频;将与音频特征样本对应的生成音频和真实音频输入到判别器中,基于生成音频和判别音频构造损失函数,基于损失函数训练得到声码器。该实施方式能够增大声码器的感受野,提高了音频质量,并减少了声码器的计算量,提高了声码器的推理速度,从而提升音频的生成效率。

技术领域

本发明涉及计算机技术领域,尤其涉及一种声码器的训练方法、音频合成的方法和装置。

背景技术

语音或音频合成的后端模型包括声学模型和声码器,声学模型用于将语义信息转换成声学特征,声码器用于将声学特征转换成音频信号。为获得更高质量的音频,声码器需要感知较大范围内的信息。

现有技术中,采用空洞卷积扩大声码器的感受野,以增大声码器的感知范围,主要采用以下方式:一、加大空洞卷积的指数级增长率,但指数级增长率过大会导致棋盘效应,声码器能力变差;二、增加空洞卷积层,但这种方式会导致参数量、计算量增大,声码器推理速度变慢。

发明内容

有鉴于此,本发明实施例提供一种声码器的训练方法、音频合成的方法和装置,能够增大声码器的感受野,提高了音频质量,并减少了声码器的计算量,提高了声码器的推理速度,从而提升音频的生成效率。

为实现上述目的,根据本发明实施例的一个方面,提供了一种声码器的训练方法,包括:

将训练集样本输入到生成器中,所述训练集样本包括多个音频特征样本和与每个所述音频特征样本对应的真实音频;

在所述生成器中,针对每个所述音频特征样本,对所述音频特征样本进行压缩处理,获得压缩后的音频特征样本;

对所述压缩后的音频特征样本进行卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频;

将与所述音频特征样本对应的生成音频和真实音频输入到判别器中,基于所述生成音频和所述真实音频构造损失函数,基于所述损失函数训练得到声码器。

可选地,所述音频特征样本由第一声道数和第一帧数表示,所述压缩处理指示了第一压缩参数;所述压缩后的音频特征样本由第二声道数和第二帧数表示,所述第二声道数根据所述第一压缩参数和所述第一声道数确定,所述第二帧数根据所述第一压缩参数和所述第一帧数确定。

可选地,所述第二声道数为所述第一声道数与所述第一压缩参数相乘的结果,所述第二帧数为所述第一帧数与所述第一压缩参数相除的结果。

可选地,对所述压缩后的音频特征样本经过卷积处理和解压缩处理,获得与所述音频特征样本对应的生成音频,包括:

将所述压缩后的音频特征样本送入卷积层,然后送入上采样层和残差网络,再送入卷积层和激活函数层,得到卷积处理后的音频特征样本;

对所述卷积处理后的音频特征样本进行解压缩处理,得到所述生成音频。

可选地,所述解压缩处理指示了第二压缩参数,所述卷积处理后的音频特征样本由第三声道数和第三帧数表示,所述第三声道数为所述第二压缩参数,所述第三帧数根据所述第一帧数、所述第二压缩参数和所述音频特征样本确定,所述生成音频的帧数根据所述第一帧数和所述音频特征样本的窗移确定;

所述上采样层为多个,各个上采样尺度的乘积根据所述第三帧数和所述第二帧数确定。

可选地,将与所述音频特征样本对应的生成音频和真实音频输入到判别器中之前,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310186600.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top