[发明专利]将文本转换为语音的系统及其存储介质有效
申请号: | 201880021978.2 | 申请日: | 2018-03-29 |
公开(公告)号: | CN110476206B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | S.本吉奥;Y.王;Z.杨;Z.陈;Y.吴;I.阿吉奥米詹纳基斯;R.J.韦斯;N.杰特里;R.M.里夫金;R.A.J.克拉克;Q.V.勒;R.J.瑞安;Y.肖 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L15/16;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 转换 语音 系统 及其 存储 介质 | ||
1.一种将文本转换为语音的系统,所述系统包括一个或多个计算机和存储指令的一个或多个非暂时性存储设备,当所述指令被所述一个或多个计算机执行时,使得所述一个或多个计算机实施:
序列到序列递归神经网络,其被配置为:
接收特定自然语言的字符序列,并且
处理所述字符序列以生成所述特定自然语言的所述字符序列的言语表达的谱图;和
子系统,其被配置为:
接收所述特定自然语言的所述字符序列,并且
将所述字符序列作为输入提供给所述序列到序列递归神经网络,以获得所述特定自然语言的所述字符序列的所述言语表达的所述谱图作为输出,其中,所述序列到序列递归神经网络包括:
编码器神经网络,其被配置为:
接收所述字符序列,并且
处理所述字符序列以生成序列中的每个字符的相应编码表示;和
基于注意力的解码器递归神经网络,其被配置为:
接收解码器输入序列;并且
对于序列中的每个解码器输入:
处理所述解码器输入和所述编码表示以生成所述谱图的r个帧,其中r是大于1的整数,其中,序列中的第二个和之后的解码器输入中的每一个是通过处理序列中的之前的解码器输入而生成的所述谱图的所述r个帧中的一个或多个,
其中,所述子系统还被配置为从所述特定自然语言的所述字符序列的所述言语表达的所述谱图生成波形。
2.根据权利要求1所述的系统,其中,所述编码器神经网络包括:
编码器预网神经网络,其被配置为:
接收序列中的每个字符的相应嵌入,并且
处理所述序列中的每个字符的相应嵌入,以生成所述字符的变换的嵌入,和
编码器CBHG神经网络,其被配置为:
接收所述变换的嵌入,并且
处理所述变换的嵌入以生成所述编码表示。
3.根据权利要求2所述的系统,其中,所述编码器CBHG神经网络包括1-D卷积滤波器组,随后是高速通道网络,并且随后是双向递归神经网络。
4.根据权利要求3所述的系统,其中,所述双向递归神经网络是门控递归单元神经网络。
5.根据权利要求3所述的系统,其中,所述编码器CBHG包括所述变换的嵌入和所述1-D卷积滤波器组的输出之间的残差连接。
6.根据权利要求3所述的系统,其中,所述1-D卷积滤波器组包括沿时间层、步幅为1的最大池化。
7.根据权利要求1所述的系统,其中,所述序列中的第一解码器输入是预定初始帧。
8.根据权利要求1所述的系统,其中,所述谱图是压缩谱图。
9.根据权利要求8所述的系统,其中,所述压缩谱图是梅尔尺度谱图。
10.根据权利要求8所述的系统,其中,所述系统还包括:
后处理神经网络,其被配置为:
接收所述压缩谱图,并且
处理所述压缩谱图以生成波形合成器输入;和
波形合成器,其被配置为:
接收所述波形合成器输入,并且
处理所述波形合成器输入,以生成所述特定自然语言的所述字符序列的所述言语表达的所述波形;并且
其中,所述子系统还被配置为:
将所述压缩的谱图作为输入提供给所述后处理神经网络,以获得所述波形合成器输入;并且
将所述波形合成器输入作为输入提供给所述波形合成器,以生成所述波形。
11.根据权利要求1所述的系统,其中,所述子系统还被配置为:
使用所述波形生成语音,并且
提供生成的语音用于回放。
12.根据权利要求10所述的系统,其中,所述波形合成器输入是所述特定自然语言的所述字符序列的所述言语表达的线性尺度谱图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880021978.2/1.html,转载请声明来源钻瓜专利网。