[发明专利]使用卷积序列学习的神经文本转语音的系统和方法有效
申请号: | 201811220510.4 | 申请日: | 2018-10-19 |
公开(公告)号: | CN109697974B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 塞尔坎·安瑞克;平伟;彭开南;沙兰·纳朗;阿贾伊·卡恩纳恩;安德鲁·吉比安斯凯;乔纳森·赖曼;约翰·米勒 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文中描述的是基于全卷积注意力的神经文本转语音(TTS)系统的实施方式,其中各种实施方式通常可被称为Deep Voice 3。Deep Voice 3的实施方式在自然度方面匹配最先进的神经语音合成系统,同时训练速度快十倍。Deep Voice 3的实施方式被扩展到TTS前所未有的数据集大小,在来自两千多位说话者的超过八百小时的音频上进行训练。此外,识别并减轻了基于注意力的语音合成网络的常见误差模式,并比较了几种不同的波形合成方法。还呈现了描述如何在单个GPU服务器上将推理扩展到每天一千万次查询的实施方式。 | ||
搜索关键词: | 使用 卷积 序列 学习 神经 文本 语音 系统 方法 | ||
【主权项】:
1.文本转语音系统,包括:一个或多个处理器;以及非暂时性计算机可读介质或媒介,包括一个或多个指令序列,所述一个或多个指令序列在由所述一个或多个处理器中的至少一个执行时,致使执行步骤,所述步骤包括:使用编码器将输入文本的文本特征转换为注意力关键表示和注意力值表示,所述编码器包括:嵌入模型,将输入文本转换为文本嵌入表示;一个或多个卷积块的系列,接收所述文本嵌入表示的投影,以及通过所述一个或多个卷积块的系列处理所述文本嵌入表示的投影,以从所述输入文本提取依赖时间的文本信息;投影层,生成所提取的依赖时间的文本信息的投影,所述依赖时间的文本信息的投影用于形成注意力关键表示;以及值表示计算器,从所述注意力关键表示和所述文本嵌入表示计算注意力值表示;以及使用基于注意力的解码器自回归地生成所述输入文本的低维音频表示,所述基于注意力的解码器包括:前网络块,接收表示音频帧的输入数据,以及包括一个或多个全连接层以对所述输入数据进行预处理;一个或多个解码器块的系列,每个解码器块均包括卷积块和注意力块,其中,卷积块生成查询,以及所述注意力块计算环境表示,作为使用所述注意力关键表示的至少一部分和来自所述卷积块的所述查询计算的注意力权重和所述注意力值表示的至少一部分的加权平均值;以及后网络块,包括全连接层,所述全连接层接收来自所述一个或多个解码器块的系列的输出,并且输出下一组低维音频表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811220510.4/,转载请声明来源钻瓜专利网。