[发明专利]一种基于变分自编码器的多说话人语音合成方法在审

专利信息
申请号: 201910671050.5 申请日: 2019-07-24
公开(公告)号: CN112289304A 公开(公告)日: 2021-01-29
发明(设计)人: 张鹏远;蒿晓阳;颜永红 申请(专利权)人: 中国科学院声学研究所;北京中科信利技术有限公司
主分类号: G10L13/08 分类号: G10L13/08;G10L13/10;G10L25/03;G10L25/27
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 陈琳琳;王宇杨
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 编码器 说话 人语 合成 方法
【说明书】:

发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。

技术领域

本发明涉及语音合成方法,特别涉及一种基于变分自编码器的多说话人语音合成方法。

背景技术

语音合成技术是将输入的文本转换为语音的重要技术,也是人机交互领域的一个重要研究内容。

传统的语音合成算法需要录制单一说话人音素覆盖比较全面的音库来保证其可以合成各种文本的语音,但会引起录制成本高、效率低且只能合成单一说话人的语音的问题。而多说话人的语音合成支持不同说话人并行录制语音,且可以合成来自不同说话人的语音。传统的多说话人语音合成往往需要获得当前语音的说话人信息,并手动标注一个说话人标签,例如说话人的独热编码,属于一种有监督的学习,而这种方法在说话人数目很多的时候合成的语音往往有多个说话人的音色重叠。该方法引入一个变分自编码器网络,对该网络的输出进行采样获得说话人的标签。

发明内容

本发明的目的在于克服传统多说话人语音合成方法中存在的有监督学习、在说话人数量很多的时候合成的语音往往有多个说话人的音色重叠问题,通过引入一个变分自编码器网络,对该网络的输出进行采样获得说话人的标签,提出了一种基于变分自编码器的多说话人语音合成方法,该方法是一种无监督的学习说话人信息的方法。

为实现上述目的,本发明提出了一种基于变分自编码器的多说话人语音合成方法,所述方法包括:

提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数并进行归一化,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;

对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征并进行归一化;

将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素的预测时长;

通过当前音素的预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;

将归一化的预测语音的声学参数输入声码器,输出合成语音信号。

作为上述方法的一种改进,所述第一变分自编码器/第二变分自编码器包含5层一维卷积层、1层长短时记忆层和1层全连接层,其中卷积层的卷积核大小为5,步长为2,数量为128,全连接层输出为预测的高斯分布的标准差和均值,长短时记忆层包含128个神经元,每个神经元的激活函数使用的是修正线性单元,其表达式为:

f(x)=max(0,x)

所述第一变分自编码器/第二变分自编码器的输入为归一化的音素级别时长参数/归一化的帧级别声学参数,输出为高斯分布的均值与标准差,计算预测的编码后的分布与真实分布之间的相对熵为:

其中,N为高斯分布的维度,σn和un分别为变分自编码器预测的高斯分布的σ(x)和u(x)第n维的标准差和均值,为隐向量真实分布,pθ(z)为变分自编码器预测的隐向量分布,并假定真实分布为标准高斯分布;

隐向量通过重采样来实现:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910671050.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top