[发明专利]中文语音合成方法、装置、终端及存储介质在审
申请号: | 202310063648.2 | 申请日: | 2023-01-13 |
公开(公告)号: | CN116052636A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 王少佳 | 申请(专利权)人: | 长城汽车股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/24 |
代理公司: | 石家庄国为知识产权事务所 13120 | 代理人: | 付晓娣 |
地址: | 071000 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 语音 合成 方法 装置 终端 存储 介质 | ||
本申请提供一种中文语音合成方法、装置、终端及存储介质。该方法包括:获取中文语句,并对中文语句进行亚字识别,得到亚字序列;其中,亚字序列中的每个亚字包含对应汉字的含义;对亚字序列进行音素转换,得到音素序列和音素位置序列;对亚字序列进行词嵌入处理,得到亚字向量;将音素序列、音素位置序列和亚字向量输入训练好的中文语音合成模型中,得到中文语句对应的梅尔频谱;梅尔频谱用于合成中文语句对应的语音。本申请可以降低中文语音合成模型学习发音规律的难度,提升语音合成的速度和质量。
技术领域
本申请涉及语音合成技术领域,尤其涉及一种中文语音合成方法、装置、终端及存储介质。
背景技术
中文语音合成是指将中文语句转换为语音。典型的语音合成系统主要包括三个部分:TTS(Text To Speech,从文本到语音)前端、声学模型(Acoustic Model)和声码器(Vocoder)。
目前,在进行中文语音合成时,通常直接使用汉语拼音的音素(比如,BOPOMOFO的中文注音格式)序列作为声学模型的输入。然而,音素序列没有显性包含中文句子的含义,给声学模型学习发音规律增加了难度,导致语音合成速度和质量较差。
发明内容
本申请实施例提供了一种中文语音合成方法、装置、终端及存储介质,以解决目前仅以音素序列作为声学模型的输入,给声学模型学习发音规律带来难度,导致语音合成速度和质量较差的问题。
第一方面,本申请实施例提供了一种中文语音合成方法,包括:
获取中文语句,并对中文语句进行亚字识别,得到亚字序列;其中,亚字序列中的每个亚字包含对应汉字的含义;
对亚字序列进行音素转换,得到音素序列和音素位置序列;
对亚字序列进行词嵌入处理,得到亚字向量;
将音素序列、音素位置序列和亚字向量输入训练好的中文语音合成模型中,得到中文语句对应的梅尔频谱;梅尔频谱用于合成中文语句对应的语音。
在一种可能的实现方式中,中文语音合成模型包括逐步优化循环网络子模型、语言编码器、音素词嵌入子模型、韵律识别子模型和声学子模型。
在一种可能的实现方式中,将音素序列、音素位置序列和亚字向量输入训练好的中文语音合成模型中,得到中文语句对应的梅尔频谱,包括:
基于音素序列、音素位置序列、亚字向量、训练好的逐步优化循环网络子模型、训练好的语言编码器、训练好的音素词嵌入子模型和训练好的韵律识别子模型,得到韵律插入向量;韵律插入向量包含中文语句的句意信息、音素信息和韵律信息;
将韵律插入向量输入到训练好的声学子模型中,得到中文语句对应的梅尔频谱。
在一种可能的实现方式中,基于音素序列、音素位置序列、亚字向量、训练好的逐步优化循环网络子模型、训练好的语言编码器、训练好的音素词嵌入子模型和训练好的韵律识别子模型,得到韵律插入向量,包括:
将亚字向量输入训练好的逐步优化循环网络子模型,得到变换后的第一向量;
获取亚字序列的位置编码,并将亚字序列的位置编码和第一向量相加后得到的向量输入到训练好的语言编码器,得到第三向量;
将音素序列输入到训练好的音素词嵌入子模型中,得到音素向量;
根据音素位置序列,对第三向量进行切片操作,得到第四向量,并将第四向量与音素向量相加,得到第五向量;
将第五向量输入到训练好的韵律识别子模型中,得到韵律信息;
将韵律信息插入到第五向量中,得到韵律插入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长城汽车股份有限公司,未经长城汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310063648.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无残液合成植物生物质黄原酸钾的方法
- 下一篇:光电器件及其制备方法