[发明专利]一种实现合成语音增强的方法及系统有效
申请号: | 201410182886.6 | 申请日: | 2014-04-30 |
公开(公告)号: | CN105023574B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 孙见青;陈凌辉;凌震华;江源;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L21/02 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;吉海莲 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及语音合成技术领域,公开了一种实现合成语音增强的方法及系统,该方法包括:基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数;利用所述合成语音参数生成连续语音信号。利用本发明,可以有效提高合成语音的增强效果。 1 | ||
搜索关键词: | 合成 语音合成模型 语音参数 合成文本 文本数据 训练数据 语音增强 连续语音信号 语音合成技术 模型生成 映射关系 语音数据 自然语音 构建 语音 | ||
基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;所述初始语音合成模型包括:时长模型、频谱模型、基频模型;
建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;
在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数,包括:根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理,得到增强的频谱模型和/或基频模型;利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或基频参数;利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型之外的其它语音参数;
利用所述合成语音参数生成连续语音信号。
2.根据权利要求1所述的方法,其特征在于,所述建立增强模型包括:根据所述初始语音合成模型生成所有训练数据的合成语音参数;
提取所有训练数据的自然语音参数;
确定增强模型的拓扑结构;
将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合,根据所述拓扑结构进行参数训练,得到增强模型。
3.根据权利要求2所述的方法,其特征在于,所述增强模型为:线性函数的映射模型、或者GMM模型、或者DNN模型。4.根据权利要求1所述的方法,其特征在于,所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系为所述初始语音合成模型生成的合成语音参数与自然语音参数的条件分布。5.根据权利要求1所述的方法,其特征在于,所述根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理,得到增强的频谱模型和/或基频模型包括:从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数;
利用所述增强模型对所述模型参数进行增强处理,得到增强后的模型参数;
将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数,得到增强的频谱模型和/或基频模型。
6.一种实现合成语音增强的系统,其特征在于,包括:初始模型建立模块,用于基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;所述初始语音合成模型包括:时长模型、频谱模型、基频模型;
增强模型建立模块,用于建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;
接收模块,用于接收待合成文本;
参数生成模块,用于根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数;所述参数生成模块包括:模型增强单元,用于根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理,得到增强的频谱模型和/或基频模型;增强语音参数生成单元,用于利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或基频参数;初始语音参数生成单元,用于利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型之外的其它语音参数;
合成模块,用于利用所述合成语音参数生成连续语音信号。
7.根据权利要求6所述的系统,其特征在于,所述增强模型建立模块包括:合成语音参数生成单元,用于根据所述初始语音合成模型生成所有训练数据的合成语音参数;
自然语音参数提取单元,用于提取所有训练数据的自然语音参数;
拓扑结构确定单元,用于确定增强模型的拓扑结构;
训练单元,用于将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合,根据所述拓扑结构进行参数训练,得到增强模型。
8.根据权利要求6所述的系统,其特征在于,所述模型增强单元包括:模型参数获取单元,用于从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数;
模型参数增强单元,用于利用所述增强模型对所述模型参数进行增强处理,得到增强后的模型参数;
增强模型生成单元,用于将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数,得到增强的频谱模型和/或基频模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410182886.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种终端音频播放方法、装置及终端
- 下一篇:源极驱动器与其控制方法与显示装置