[发明专利]语音合成方法、装置、电子设备及存储介质在审
申请号: | 202011433981.0 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112466273A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 孙奥兰;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/00;G10L19/02;G10L19/26;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能领域,揭露了一种语音合成方法,包括:获取训练文本,利用预构建的语音合成模型对训练文本进行位置向量编码和声音频谱编码,生成声音频谱;对声音频谱进行音高投影及持续时间投影,得到音高频谱和持续时间频谱,将音高频谱与声音频谱进行残差连接,生成残差声音频谱;将持续时间频谱和残差声音频谱进行汇总及平滑处理,得到目标声音频谱;计算目标声音频谱与对应标签值的损失值,根据损失值,调整语音合成模型的参数,得到训练完成的语音合成模型;利用训练完成的语音合成模型对待合成语音文本进行语音合成,得到合成结果。此外,本发明还涉及区块链技术,所述目标声音频谱可存储于区块链中。本发明可以提高语音合成的准确性。
技术领域
本发明涉及人工智能领域,尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术
语音合成指的是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。近年来,神经语音合成(Text-to-Speech, TTS)系统高速发展,摆脱了传统pipline冗杂的合成流程,不再依赖高度专业的文法、词法特征提取,而是将原始文本经过神经网络转成梅尔谱,再将梅尔谱转成声音波形,实现了端到端的语音合成系统,所合成的语音质量近似人声。但是,由于文本中的字符音频信号通常具有较高的时间分辨率,且字符文本中的梅尔帧生成是并行计算的,互不依赖,这样统一导致了单个输入文本缺乏足够的语义信息造成同一语音单元发音不同,进而会影响语音合成的准确性。
发明内容
本发明提供一种语音合成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高语音合成的准确性。
为实现上述目的,本发明提供的一种语音合成方法,包括:
获取训练文本,利用预构建的语音合成模型中编码层对所述训练文本进行位置向量编码,得到文本向量;
利用所述语音合成模型中前馈注意力机制对所述文本向量进行声音频谱编码,生成声音频谱;
利用所述语音合成模型中音高识别模块和声音持续时间识别模块分别对所述声音频谱进行音高投影及持续时间投影,得到音高频谱和持续时间频谱,并将所述音高频谱与所述声音频谱进行残差连接,生成残差声音频谱;
将所述持续时间频谱和所述残差声音频谱进行汇总,得到声音持续时间频谱;
利用所述语音合成模型中的滤波函数对所述声音持续时间频谱进行平滑处理,得到目标声音频谱;
利用所述语音合成模型中的损失函数计算所述目标声音频谱与对应标签值的损失值,根据所述损失值,调整所述语音合成模型的参数,直至所述损失值小于预设阈值时,得到训练完成的语音合成模型;
利用所述训练完成的语音合成模型对待合成语音文本进行语音合成,得到合成结果。
可选地,所述利用预构建的语音合成模型中编码层对所述训练文本进行位置向量编码,得到文本向量,包括:
获取所述训练文本中的文本语句,利用所述编码层对所述文本语句中的词语进行索引编码,得到词编码索引;
对所述词编码索引构建向量矩阵,生成词向量,根据所述词向量,生成文本向量。
可选地,所述利用所述语音合成模型中前馈注意力机制对所述文本向量进行声音频谱编码,生成声音频谱,包括:
利用所述前馈注意力机制中的自注意力模块查询所述文本向量的词向量;
利用所述前馈注意力机制中的卷积模块对所述词向量进行特征提取,得到特征词向量;
利用所述前馈注意力机制中的编码器提取所述特征词向量的音素信息序列;
利用所述前馈注意力机制中的解码器将所述音素信息序列转换成频谱信息序列,得到所述声音频谱。
可选地,所述利用所述语音合成模型中音高识别模块和声音持续时间识别模块分别对所述声音频谱进行音高投影及持续时间投影,得到音高频谱和持续时间频谱,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011433981.0/2.html,转载请声明来源钻瓜专利网。