[发明专利]一种声谱图生成方法及装置有效
| 申请号: | 202310468669.2 | 申请日: | 2023-04-27 |
| 公开(公告)号: | CN116189655B | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 周志洋;刘诗慧;姚麒 | 申请(专利权)人: | 北京红棉小冰科技有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/03 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王治东 |
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 声谱 生成 方法 装置 | ||
本发明提供一种声谱图生成方法及装置,可以获取与目标文本的音素序列对应的帧级别音素特征序列;帧级别音素特征序列包括至少一个帧级别音素特征数据;将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配,获得各帧级别音素特征数据的发音权重分配数据;其中,任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重;基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列,生成目标声谱图。本发明可以有效保障声谱图生成质量。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种声谱图生成方法及装置。
背景技术
随着科学技术的发展,语音合成技术不断提高。
现有技术在进行语音合成时,可以先行基于目标文本生成相应的声谱图,之后再基于声谱图来合成相应的音频。其中,现有技术可以通过声学模型来生成与目标文本对应的声谱图。
当前,主要存在有两种模型结构的声谱模型,一种为自回归结构的声谱模型,另一种为非自回归结构的声谱模型。相比于自回归结构的声谱模型,非自回归结构的声谱模型采用的是并行生成的模式,即同步地一次性生成声谱图的所有帧,可以极大地加快模型的训练以及生成速度。
但是,非自回归结构的声谱模型在生成声谱图的过程中,未考虑到音素与音素之间的发音相关性(比如,在生成汉字“我”相关的声谱图帧时,是分别独立生成“w”和“o”这两个音素对应的声谱图帧,未考虑音素“o”对于“w”发音的影响),可能导致声谱图的生成质量较低。
发明内容
本发明提供一种声谱图生成方法及装置,用以解决现有技术中未考虑到音素与音素之间的发音相关性,可能导致声谱图的生成质量较低的缺陷,有效保障声谱图的生成质量。
本发明提供一种声谱图生成方法,包括:
获取与目标文本的音素序列对应的帧级别音素特征序列;所述帧级别音素特征序列包括至少一个帧级别音素特征数据;
将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配,获得各所述帧级别音素特征数据的发音权重分配数据;其中,任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重;
基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图;
其中,所述发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的;所述第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。
可选的,所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图,包括:
将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列输入至训练好的迭代式声谱解码器,获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图;
其中,在每一次的迭代优化中,所述迭代式声谱解码器的输入均包括所述帧级别音素特征序列、各所述帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图,所述迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图;
其中,所述迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的;所述第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。
可选的,所述获取与目标文本的音素序列对应的帧级别音素特征序列,包括:
获取与目标文本的音素序列对应的音素特征序列;所述音素特征序列包括至少一个音素特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京红棉小冰科技有限公司,未经北京红棉小冰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310468669.2/2.html,转载请声明来源钻瓜专利网。





