[发明专利]语音合成方法、装置、电子设备及可读存储介质在审

申请号：	202111090595.0	申请日：	2021-09-17
公开（公告）号：	CN113781995A	公开（公告）日：	2021-12-10
发明（设计）人：	苏志霸;叶剑豪;周鸿斌;李林;任凯盟;贺雯迪;贺天威;谭芃菲;卢恒	申请（专利权）人：	上海喜马拉雅科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/047
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张欣欣
地址：	201100 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出了一种语音合成方法、装置、电子设备及可读存储介质，涉及计算机领域。该方法包括：通过编码，获得目标文本的文本信息对应的文本特征，其中，文本信息包括目标文本的音素序列；利用预先训练好的时长预测模型，基于文本特征，获得文本特征中每个音素的预测时长；基于预测时长对所述文本特征进行音素帧级展开，获得帧序列；将帧序列输入到解码器中进行并行解码，获得各帧对应的声学特征，其中，解码器包括Unet网络；根据各帧对应的声学特征，得到目标文本对应的目标音频。如此，可提高语音合成质量及速度。

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种语音合成方法、装置、电子设备及可读存储介质。

背景技术

在语音合成的实际应用场景中，受限于声学模型中自回归解码器的合成速度，生产效率往往过低，并且自回归解码器的稳定性也比较差。在语音合成中，例如原版的DurIAN，自回归解码器需要一帧一帧地解码，效率很慢，并且下一帧的输出依赖之前的输入，稳定性较差。因此，如何提高语音合成速度及质量，成为本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供了一种语音合成方法、装置、电子设备及可读存储介质，其能够提高语音合成质量及语音合成质量。

本申请的实施例可以这样实现：

第一方面，本申请实施例提供一种语音合成方法，包括：

通过编码，获得目标文本的文本信息对应的文本特征，其中，所述文本信息包括所述目标文本的音素序列；

利用预先训练好的时长预测模型，基于所述文本特征，获得所述文本特征中每个音素的预测时长；

基于所述预测时长对所述文本特征进行音素帧级展开，获得帧序列；

将所述帧序列输入到解码器中进行并行解码，获得各帧对应的声学特征，其中，所述解码器包括Unet网络；

根据各帧对应的声学特征，得到所述目标文本对应的目标音频。

第二方面，本申请实施例提供一种语音合成装置，包括：

编码模块，用于通过编码，获得目标文本的文本信息对应的文本特征，其中，所述文本信息包括所述目标文本的音素序列；

时长预测模块，用于利用预先训练好的时长预测模型，基于所述文本特征，获得所述文本特征中每个音素的预测时长；