[发明专利]一种基于变分自编码器的并行语音合成方法和装置有效
申请号: | 202110669900.5 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113450761B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 吴志勇;卢辉 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/30 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 徐罗艳 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 编码器 并行 语音 合成 方法 装置 | ||
本发明公开了一种基于变分自编码器的并行语音合成方法和装置,包括如下步骤:S1、接收输入文本,并进行字音转换,得到对应的发音序列;S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;S3、根据所述语言学特征,预测对应的目标声学特征的帧数;S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出。
技术领域
本发明涉及文本和语音处理技术领域,具体涉及一种基于变分自编码器的并行语音合成方法。
背景技术
语音合成是一种将文本转换成语音的技术,是人机语音交互中的关键技术。语音合成的音质和速度是语音合成技术在实际应用中的两项重要指标。在人机语音对话系统中,高音质的合成语音能够拉近人与机器之间的距离,而低时延的语音合成过程则能使用户能够得到迅速的反馈,两者都能改善用户在人机口语对话中的体验。
传统的语音合成模型主要存在以下几方面的问题:1)传统参数语音合成模型受限于模型的建模能力,合成语音音质和自然度较差;而基于拼接方法的语音合成模型虽然音质和自然度较高,但是依赖于庞大的语音数据库和详细的切分及标记;2)近年来提出的基于序列到序列神经网络模型的语音合成方法能够生成高音质的语音,但其采用自回归(串行)的方式进行声学特征的预测,合成速度慢,且容易导致合成误差的累积;3)针对自回归语音合成模型速度慢的问题,研究者提出非自回归(并行)语音合成模型,通过对音素级别的时长信息的建模来得到语言学特征和声学特征之间的对齐,进而实现并行地合成全部语音声学特征帧,然而,一方面音素级别时长信息的获取过程较为复杂,另一方面基于音素级别时长信息的对齐将语言学特征进行重复扩充,得到的对齐后的特征不平滑,这会影响合成语音的自然度。
发明内容
针对上述问题,本发明提出一种基于变分自编码器的并行语音合成方法,采用变分自编码器的神经网络模型对声学特征和语言学特征的对齐信息以及声学特征的重建过程进行建模,以实现并行的、高质量的语音合成。
一种基于变分自编码器的并行语音合成方法,包括如下步骤:S1、接收输入文本,并进行字音转换,得到对应的发音序列;S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;S3、根据所述语言学特征,预测对应的目标声学特征的帧数;S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出。
进一步地,所述发音序列为音素序列或拼音序列,步骤S2具体包括:将所述音素序列输入基于自注意力机制的文本编码器,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。
进一步地,步骤S3具体包括:将所述语言学特征输入训练好的总时长预测器,经过两层全连接网络输出字符级别的时长信息,将各个字符对应的输出进行加和得到所述目标声学特征的帧数。
进一步地,步骤S4具体包括:S41、采样长度为所预测帧数的高斯噪声;S42、以所述语言学特征作为条件输入,利用训练好的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布;S43、基于所述语言学特征,从所述隐变量先验概率分布采样长度为步骤S3所预测帧数的隐变量。
进一步地,步骤S5具体包括:S51、利用训练好的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征;S52、利用声码器将所述目标声学特征转换为语音波形信号输出,实现语音合成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110669900.5/2.html,转载请声明来源钻瓜专利网。