[发明专利]通过使用能量分值来训练语音合成神经网络在审
申请号: | 202110631060.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113313183A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 蒂姆·萨利曼斯;阿列克谢·阿莱克谢耶维奇·格里岑科 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 使用 能量 分值 训练 语音 合成 神经网络 | ||
本公开涉及通过使用能量分值来训练语音合成神经网络。方法、系统和装置,包括被编码在计算机存储介质上的计算机程序,用于训练生成性神经网络,以通过使用能量分值而将条件文本输入转换为音频输出。
相关申请的交叉引用
本申请要求于2020年6月5日提交的美国临时申请No. 63/035,553的优先权。该在先申请的公开内容被认为是本申请的公开 内容的一部分,并且通过引用并入本申请的公开内容中。
技术领域
本申请与训练神经网络有关。
背景技术
神经网络是其中采用一个或多个非线性单元层来针对所接收的输 入而预测输出的机器学习模型。除了输出层之外,一些神经网络还包 括一个或多个隐藏层。每个隐藏层的输出被用作在所述网络中的一个 或多个其他层(即一个或多个其他隐藏层、输出层、或两者)的输入。 所述网络的每个层根据相应参数集的当前值,由所接收的输入来生成 输出。
发明内容
本说明书描述了一种被实施为在一个或多个位置中的一台或多台 计算机上计算机程序的系统,该系统训练被配置为生成输出音频数据 的神经网络。
在一些实施方式中,输出音频数据是包括在输出时间步序列的每 一个处的音频波样本的输出音频示例。在给定时间步处的音频样本可 以是音频波的幅度值,也可以是压缩或压扩的幅度值。
在一些其他实施方式中,输出音频数据是用于表示音频示例的频 谱图。在这些实施方式中,在推断时,系统可以处理所生成的频谱图 以生成相应的音频示例。例如,系统可以通过对生成的频谱图应用逆 频谱图变换,将生成的频谱图线性地投影到波形空间。
本说明书中描述的主题可以在特定实施例中实施,以便实现以下 优点中的一个或多个。
一些现有的语音合成系统依赖于对抗训练,即训练系统并行地训 练语音合成神经网络和一个或多个鉴别器。这些生成性对抗网络可能 难以训练,并且需要许多训练时期(epoch)才能收敛。使用能量分值 来确定参数更新,如本说明书中所述,允许了系统实现稳定训练和快 速收敛。
本说明书中描述的前馈生成性神经网络可以比依赖自回归生成性 神经网络(例如WaveNet)的现有技术更快地生成输出示例,这对于 其中快速批量推理很重要的应用来说很重要。自回归神经网络通过在 每个输出时间步执行前向传递,来生成跨多个输出时间步的输出示例。 在给定的输出时间步,自回归神经网络生成新的输出样本,以被包含 在以已被生成的输出样本为条件的输出示例中。这会消耗大量计算资 源并花费大量时间。另一方面,前馈生成性神经网络可以在单次前向 传递中生成输出示例,同时保持生成的输出示例的高质量。相对于有 多少时间被自回归神经网络所消耗,这大大减少了生成所述输出示例 所需的时间和计算资源量。
其他现有技术依赖于可逆前馈神经网络,该网络通过使用概率密 度来蒸馏(distilling)自回归模型而被训练(例如Parallel WaveNet)。 以这种方式训练允许可逆前馈神经网络生成听起来逼真(realistic)并 且对应于输入文本的语音信号,而无需对数据中发生的每个可能的变 化进行建模。如在本说明书中描述的前馈生成性神经网络还可以生成 忠实于输入文本的逼真音频样本,而无需对所述音频数据的数据分布 进行显式建模,但在模型大小和训练时间两方面都可以更有效地做到 这一点,并且不需要可逆前馈神经网络的蒸馏和可逆性要求。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例 的细节。本主题的其他特征、方面和优点根据说明书、附图和权利要 求将变得显而易见。
附图说明
图1是用于训练生成性神经网络的示例性训练系统的图。
图2是示出所述训练过程的图。
图3是用于训练生成性神经网络的示例性过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110631060.3/2.html,转载请声明来源钻瓜专利网。