[发明专利]中英文混合的语音合成方法、装置、电子设备和存储介质在审
申请号: | 202110687684.7 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113380221A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 陈子浩;罗超;周明康;邹宇;李巍;严丽 | 申请(专利权)人: | 携程科技(上海)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L13/04;G10L25/24;G10L25/30 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 徐莉;钟宗 |
地址: | 200335 上海市长宁区金钟*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中英文 混合 语音 合成 方法 装置 电子设备 存储 介质 | ||
1.一种中英文混合的语音合成方法,其特征在于,包括:
对包含中文文本和英文文本的初始文本进行正则化,将所述中文文本转换成带音调的拼音,将所述英文文本转换成单词;
将正则化后的文本与对应的初始音频对齐,获得带停顿韵律的对齐文本;
对所述对齐文本进行音素转换,将所述对齐文本中的拼音和单词分别转换成对应的CMU音素;
将每个CMU音素转换成音素向量输入声学模型,获得对应于所述初始文本的梅尔谱特征;
将所述梅尔谱特征输入声码器,合成目标音频。
2.如权利要求1所述的语音合成方法,其特征在于,所述对所述对齐文本进行音素转换之前,还包括:
获得覆盖所有拼音的声母和韵母,并获得CMU发音词典;
建立第一转换关系,使每个声母和每个韵母根据所述第一转换关系映射至所述CMU发音词典中对应的CMU音素,且每个音调根据所述第一转换关系转换成不同于所述CMU发音词典中的重读标识的数字标识;
建立第二转换关系,使不在所述CMU发音词典中的单词根据所述第二转换关系转换成对应的CMU音素。
3.如权利要求2所述的语音合成方法,其特征在于,所述对所述对齐文本进行音素转换,包括:
根据所述第一转换关系,将所述对齐文本中的拼音转换成对应的CMU音素;
根据所述CMU发音词典和/或所述第二转换关系,将所述对齐文本中的单词转换成对应的CMU音素;以及
返回所述对齐文本中的停顿韵律。
4.如权利要求1所述的语音合成方法,其特征在于,所述将所述中文文本转换成带音调的拼音,包括:
对所述中文文本中的标点符号进行处理,保留逗号、句号和问号并转换成英文格式;
对所述中文文本中的数字和符号进行处理,将所述数字和符号按照实际场景读法转换成中文格式;
将处理后的中文文本中的所有中文转换成带音调的拼音。
5.如权利要求1所述的语音合成方法,其特征在于,所述将所述英文文本转换成单词,包括:
对所述英文文本中的标点符号进行处理,保留逗号、句号、单引号和问号并转换成英文格式;
将所述英文文本中的数字转换成单词。
6.如权利要求1所述的语音合成方法,其特征在于,所述将正则化后的文本与对应的初始音频对齐,包括:
将正则化后的文本中的拼音和单词与所述初始音频进行对齐;
根据所述初始音频的各段静音时长,在对齐后的初始文本的对应位置添加各级停顿韵律。
7.如权利要求1所述的语音合成方法,其特征在于,所述声学模型基于Seq2Seq的编码器-解码器网络构建,包括双向长短期记忆网络、多层卷积神经网络和全连接层,并采用注意力机制学习音素向量与梅尔谱特征之间的对齐关系。
8.如权利要求7所述的语音合成方法,其特征在于,所述声学模型包括中文编码器和英文编码器;
训练时,将训练文本同时输入所述中文编码器和所述英文编码器;
使用时,将拼音对应的音素向量输入所述中文编码器,将单词对应的音素向量输入所述英文编码器。
9.如权利要求1所述的语音合成方法,其特征在于,所述声码器基于MelGAN的生成对抗网络构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程科技(上海)有限公司,未经携程科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110687684.7/1.html,转载请声明来源钻瓜专利网。