[发明专利]语音合成方法、装置、电子设备及可读存储介质在审
申请号: | 202111090595.0 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113781995A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 苏志霸;叶剑豪;周鸿斌;李林;任凯盟;贺雯迪;贺天威;谭芃菲;卢恒 | 申请(专利权)人: | 上海喜马拉雅科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 201100 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 可读 存储 介质 | ||
本申请提出了一种语音合成方法、装置、电子设备及可读存储介质,涉及计算机领域。该方法包括:通过编码,获得目标文本的文本信息对应的文本特征,其中,文本信息包括目标文本的音素序列;利用预先训练好的时长预测模型,基于文本特征,获得文本特征中每个音素的预测时长;基于预测时长对所述文本特征进行音素帧级展开,获得帧序列;将帧序列输入到解码器中进行并行解码,获得各帧对应的声学特征,其中,解码器包括Unet网络;根据各帧对应的声学特征,得到目标文本对应的目标音频。如此,可提高语音合成质量及速度。
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种语音合成方法、装置、电子设备及可读存储介质。
背景技术
在语音合成的实际应用场景中,受限于声学模型中自回归解码器的合成速度,生产效率往往过低,并且自回归解码器的稳定性也比较差。在语音合成中,例如原版的DurIAN,自回归解码器需要一帧一帧地解码,效率很慢,并且下一帧的输出依赖之前的输入,稳定性较差。因此,如何提高语音合成速度及质量,成为本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例提供了一种语音合成方法、装置、电子设备及可读存储介质,其能够提高语音合成质量及语音合成质量。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种语音合成方法,包括:
通过编码,获得目标文本的文本信息对应的文本特征,其中,所述文本信息包括所述目标文本的音素序列;
利用预先训练好的时长预测模型,基于所述文本特征,获得所述文本特征中每个音素的预测时长;
基于所述预测时长对所述文本特征进行音素帧级展开,获得帧序列;
将所述帧序列输入到解码器中进行并行解码,获得各帧对应的声学特征,其中,所述解码器包括Unet网络;
根据各帧对应的声学特征,得到所述目标文本对应的目标音频。
第二方面,本申请实施例提供一种语音合成装置,包括:
编码模块,用于通过编码,获得目标文本的文本信息对应的文本特征,其中,所述文本信息包括所述目标文本的音素序列;
时长预测模块,用于利用预先训练好的时长预测模型,基于所述文本特征,获得所述文本特征中每个音素的预测时长;
音素帧级展开模块,用于基于所述预测时长对所述文本特征进行音素帧级展开,获得帧序列;
解码模块,用于将所述帧序列输入到解码器中进行并行解码,获得各帧对应的声学特征,其中,所述解码器包括Unet网络;
合成模块,用于根据各帧对应的声学特征,得到所述目标文本对应的目标音频。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式所述的语音合成方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式所述的语音合成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海喜马拉雅科技有限公司,未经上海喜马拉雅科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111090595.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种活性染料数码印花墨水及用途
- 下一篇:录音方法、装置、存储介质及电子设备