[发明专利]一种基于自适应注意力机制的语音合成方法和系统在审
申请号: | 202310051580.6 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116030786A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 柯登峰;胡睿欣;姚文翰;罗琪;舒文涛;王运峰 | 申请(专利权)人: | 澳克多普有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 姜有保 |
地址: | 518116 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 注意力 机制 语音 合成 方法 系统 | ||
本发明涉及语音合成技术领域,具体公开了一种基于自适应注意力机制的语音合成方法和系统,包括获取具有文本标注及说话人标签的中文语音数据;对中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;构建语音合成模型,将音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测值;基于帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及所述预测值训练语音合成模型,以获得定制化语音合成模型;基于定制化语音合成模型合成未知说话人语音;该方法能更加快速的适应说话人音色,达到显著提高生成的说话人语音的效果。
技术领域
本发明涉及语音合成技术领域,具体涉及一种基于自适应注意力机制的语音合成方法和系统。
背景技术
在现有的语音合成方法中,生成的语音质量受到了训练数据的限制,采用少量数据很难生成高相似度、高自然度的语音,并且模型存在过拟合风险;因此在训练语音合成系统时,往往会应用到大量的语音数据;目前,多人的语音合成模型已经可以很好的拟合多个说话人的音色,并且可以通过控制文本输入来合成自己想要的输出结果,然而适应性语音合成仍然是一个非常具有挑战性的任务,如何用更少的数据,生成更加逼真和相似的语音是研究的重点。
现有的适应性语音合成方法有两个主要方向:
第一:例如UNET-TTS通过优化模型结构更好的捕获说话人音色,并且在真正合成时只提取说话人音色而不去优化模型参数(zero-shot),但其存在合成的说话人的语音质量和语音相似度并不好的缺陷;
第二:例如AdaSpeech模型通过少量的未知说话人语音样本,对模型进行微小调整,从而生成更高质量和相似度的未知说话人语音(few-shot or one-shot),合成的语音质量和说话人相似度更高,但其在微调时,并未考虑不同说话人的音高和能量不同,存在合成的语音效果不高的缺陷。
发明内容
针对上述问题,本发明的一个目的是提供一种基于自适应注意力机制的语音合成方法,该方法采用少量未知说话人的语音数据,通过微小变化语音合成模型的参数来合成未知说话人声音,具体包括以说话人高维特征作为条件去控制语音合成模型的注意力机制和诸如音高、时长等的预测模块的权重,从而达到更加快速的适应说话人音色,显著提高生成的说话人语音的效果。
本发明的第二个目的是提供一种基于自适应注意力机制的语音合成系统。
本发明所采用的第一个技术方案是:一种基于自适应注意力机制的语音合成方法,包括以下步骤:
S100:获取具有文本标注及说话人标签的中文语音数据;对所述中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;
S200:构建语音合成模型,将所述音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高;
S300:基于所述帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及所述预测梅尔频谱、预测音素级别时长、预测能量和预测音高训练语音合成模型,以获得定制化语音合成模型;
S400:获取未知说话人的文本,将未知说话人的文本输入所述定制化语音合成模型,以获得未知说话人的预测梅尔频谱;基于所述未知说话人的预测梅尔频谱合成未知说话人语音。
优选地,所述步骤S100中的预处理包括以下子步骤:
S110:将所述文本数据转换为音素序列;
S120:将所述音素序列和对应的中文语音数据送入对齐模型,从而获得音素级别时长;
S130:通过预设字典生成每个文本数据对应的各个音节边界;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳克多普有限公司,未经澳克多普有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310051580.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:葡萄籽油神经酰胺及其合成方法与用途
- 下一篇:半钢炼钢用助熔剂及其造渣方法