[发明专利]一种基于自适应注意力机制的语音合成方法和系统在审
申请号: | 202310051580.6 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116030786A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 柯登峰;胡睿欣;姚文翰;罗琪;舒文涛;王运峰 | 申请(专利权)人: | 澳克多普有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 姜有保 |
地址: | 518116 广东省深圳市龙岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 注意力 机制 语音 合成 方法 系统 | ||
1.一种基于自适应注意力机制的语音合成方法,其特征在于,包括以下步骤:
S100:获取具有文本标注及说话人标签的中文语音数据;对所述中文语音数据及其对应的文本数据进行预处理,以获得音素序列、帧级别梅尔频谱、音素级别时长、帧级别音高、帧级别能量以及音节边界;
S200:构建语音合成模型,将所述音节边界、音素序列、帧级别音高、帧级别能量和说话人标签输入语音合成模型,从而获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高;
S300:基于所述帧级别梅尔频谱、音素级别时长、帧级别音高和帧级别能量,以及所述预测梅尔频谱、预测音素级别时长、预测能量和预测音高训练语音合成模型,以获得定制化语音合成模型;
S400:获取未知说话人的文本,将未知说话人的文本输入所述定制化语音合成模型,以获得未知说话人的预测梅尔频谱;基于所述未知说话人的预测梅尔频谱合成未知说话人语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述步骤S100中的预处理包括以下子步骤:
S110:将所述文本数据转换为音素序列;
S120:将所述音素序列和对应的中文语音数据送入对齐模型,从而获得音素级别时长;
S130:通过预设字典生成每个文本数据对应的各个音节边界;
S140:对所述中文语音数据进行音高的预测,获得帧级别音高;
S150:将中文语音数据的语音波形通过短时傅立叶变换以及梅尔频谱转换,以生成帧级别梅尔频谱以及帧级别能量。
3.根据权利要求1所述的语音合成方法,其特征在于,所述步骤S200中的语音合成模型包括说话人特征表、音素特征表、自适应编码器、自适应预测器组和自适应解码器;
所述自适应编码器包括音素编码器、音节编码器、时长预测器、长度规整器、音节生成器以及自适应交叉注意力模块;
所述自适应预测器组包括自适应音高预测器和自适应能量预测器。
4.根据权利要求3所述的语音合成方法,其特征在于,所述步骤S200中通过以下子步骤获得预测梅尔频谱、预测音素级别时长、预测能量和预测音高:
S210:基于所述音素序列查询音素特征表,从而生成初始音素特征;以及基于说话人标签查询说话人特征表,从而生成说话人特征;
S220:将所述初始音素特征、说话人特征和音节边界输入自适应编码器,从而获得预测音素级别时长和帧级别第二隐藏特征;
S230:将所述帧级别第二隐藏特征、说话人特征以及帧级别音高和帧级别能量输入自适应预测器组,从而生成预测能量、预测音高以及帧级别第三隐藏特征;
S240:将所述帧级别第三隐藏特征和说话人特征输入自适应解码器,从而得到预测梅尔频谱。
5.根据权利要求4所述的语音合成方法,其特征在于,所述步骤S220包括:
1)将所述初始音素特征输入音素编码器,以生成音素级第一隐藏特征;
2)将所述音素级第一隐藏特征和音节边界输入音节生成器,以生成音节初步特征;
3)将所述音节初步特征输入音节编码器进行编码,从而获得音节级第一隐藏特征;
4)将所述音素级第一隐藏特征和音节边界输入时长预测器,从而得到预测音素级别时长,并对所述预测音素级别时长求和,从而输出音节级别时长;
5)基于所述音节级别时长将所述音节级第一隐藏特征通过长度规整器扩充为帧级别第一隐藏特征;
6)将所述帧级别第一隐藏特征和音节级第一隐藏特征作为参数、说话人特征作为条件输入自适应交叉注意力模块,从而获得帧级别第二隐藏特征。
6.根据权利要求4所述的语音合成方法,其特征在于,所述步骤S230包括:
将所述帧级别第二隐藏特征和说话人特征均分别输入自适应能量预测器和自适应音高预测器,从而输出预测能量和预测音高;
将所述帧级别音高和帧级别能量加入所述帧级别第二隐藏特征中,从而生成帧级别第三隐藏特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳克多普有限公司,未经澳克多普有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310051580.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:葡萄籽油神经酰胺及其合成方法与用途
- 下一篇:半钢炼钢用助熔剂及其造渣方法