[发明专利]一种基于生成式对抗网络的语音合成方法有效
申请号: | 202110616806.3 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113066475B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 曹艳艳;陈佩云 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/24;G10L25/30;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 语音 合成 方法 | ||
一种基于生成式对抗网络的语音合成方法,包括以下步骤:S1.准备训练样本,包括真实音频数据,提取梅尔频谱特征;S2.设置初始化的生成器参数组和鉴别器参数组;S3.输入梅尔频谱特征到生成器得到输出合成音频;S4.将S1中的真实音频数据和S3得到的输出合成音频对应同时输入到多维鉴别器和池化鉴别器;S4.将鉴别器的输出结果输入到损失函数公式,分别计算生成器损失函数和鉴别器损失函数;S5.进行生成器和鉴别器的更新;S6.利用更新后的生成器和鉴别器重复直到到达设定的更新次数最大值M;S7.每更新一次后,返回步骤S3;S8.利用生成器进行语音合成。本发明生成器所采用的均为一维卷积运算,模型参数小,速度快。
技术领域
本发明属于人工智能语音合成技术领域,具体涉及一种基于生成式对抗网络的语音合成方法。
背景技术
语音作为最直接快速的沟通方式,在人工智能领域起着非常重要的作用,已广泛应用于机器人,汽车,合成主播等领域。随着人工智能产品的广泛应用,对语音合成的自然度、清晰度、可理解性等要求也越来越高。深度学习让语音合成技术快速发展。
现在常用的基于深度学习的语音合成方案主要分为两个阶段:根据文本信息预测其声学特征,如mel-spectrograms;由声学特征预测其原始音频波形,即声码器模型学习。第一阶段是低维特征间的运算,而第二阶段声学特征到原始音频,通常需要从低纬度映射到高维度,如采样率16000,48000等。WaveNet是一种自回归卷积神经网络,作为最早一批被用于语音合成的深度学习算法,大大提升了语音合成质量,但是其模型结构决定了速度非常慢,很难应用到实际产品中。近几年,对语音合成声码器的研究也主要侧重于提升运算速度和降低模型参数,对合成速度并无大的提升。
发明内容
为克服现有技术存在的技术缺陷,本发明公开了一种基于生成式对抗网络的语音合成方法。
本发明所述基于生成式对抗网络的语音合成方法,包括以下步骤:
S1.准备训练样本,包括真实音频数据,提取真实音频数据的梅尔频谱特征;
S2.根据梅尔频谱特征的提取方式和采样率,设置初始化的生成器参数组,包括设置一维反卷积参数和一维卷积参数; 设置初始化的鉴别器参数组,包括多维鉴别器和池化鉴别器的参数;
S3.输入梅尔频谱特征到生成器,由生成器得到对应的输出合成音频;
S4.将S1中的真实音频数据和S3得到的输出合成音频对应同时输入到多维鉴别器和池化鉴别器;其中真实音频数据和输出合成音频均为一维音频数据;
多维鉴别器将一维音频数据转换为多维矩阵,并对多维矩阵进行二维卷积运算得到输出结果;
池化鉴别器将一维音频数据做池化缩小维度,然后进行一维卷积运算得到输出结果;
S5.将鉴别器的输出结果输入到损失函数公式,分别计算生成器损失函数和鉴别器损失函数;
----(1)
上式中,Loss_D(D;G)表示生成器模型参数固定时的鉴别器损失函数;Loss_G(G;D)表示鉴别器参数固定时的生成器损失函数;
D(xm)表示真实音频数据x经过第m次变形后输入鉴别器得到的输出结果,s表示真实音频的梅尔频谱值, E(x,s)表示以x,s为变量进行均值计算;
Gm(s)表示生成器输出的输出合成音频第m次变换后的m次第一中间值;D(Gm(s))表示将该m次第一中间值输入鉴别器得到的m次第二中间值;
M为设定的音频数据总的变形次数,完成M次变形后,得到本次更新的损失函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110616806.3/2.html,转载请声明来源钻瓜专利网。