[发明专利]语音合成方法、装置、电子设备及存储介质在审
申请号: | 202011452787.7 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112509554A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 孙奥兰;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L13/04 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 存储 介质 | ||
本发明涉及语音合成技术,揭露一种语音合成方法,包括:获取字符向量,利用多头注意力网络对字符向量执行注意力计算,得到注意力向量;对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;利用字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。本发明还揭露语音合成装置、电子设备以及存储介质。本发明可解决合成出的语音不够平滑及自然的问题。
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着深度学习的迅速发展,基于深度学习网络的语音合成方法如雨后春笋般涌现,目前常用的语音合成方法包括LSTM合成法、BERT合成法等,虽然此类方法都可实现语音合成,但由于缺乏对语音自然度及流畅度的改善,导致出现所合成出的语音不够平滑及自然的问题。
发明内容
本发明提供一种语音合成方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决合成出的语音不够平滑及自然的问题。
为实现上述目的,本发明提供的一种语音合成方法,包括:
接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置;
对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络;
利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量;
对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;
利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
可选地,所述利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列,包括:
对所述字符注意力向量执行归一化,得到字符归一化向量;
对所述归一化向量执行卷积操作,得到字符卷积向量;
对所述字符卷积向量与所述字符注意力向量执行残差连接,得到所述字符特征序列。
可选地,所述对所述归一化向量执行卷积操作,得到字符卷积向量,包括:
根据预设卷积核维度构建卷积核;
利用所述卷积核对所述归一化向量执行卷积操作,得到所述字符卷积向量。
可选地,所述将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列,包括:
将所述字符拼音进行词向量转化,得到拼音向量;
将所述拼音向量及所述字符向量输入至所述发音停顿预测模型,利用所述发音停顿预测模型对所述拼音向量及所述字符向量执行傅里叶变换,得到傅里叶变换序列;
对所述傅里叶变换序列执行发音停顿预测,得到所述发音停顿序列。
可选地,所述预训练完成的注意力特征模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011452787.7/2.html,转载请声明来源钻瓜专利网。