[发明专利]一种实现合成语音增强的方法及系统有效

申请号：	201410182886.6	申请日：	2014-04-30
公开（公告）号：	CN105023574B	公开（公告）日：	2018-06-15
发明（设计）人：	孙见青;陈凌辉;凌震华;江源;胡国平;胡郁;刘庆峰	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L21/02
代理公司：	北京维澳专利代理有限公司 11252	代理人：	王立民;吉海莲
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及语音合成技术领域，公开了一种实现合成语音增强的方法及系统，该方法包括：基于训练数据构建初始语音合成模型，所述训练数据包括文本数据及与所述文本数据对应的语音数据；建立增强模型，所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系；在接收到待合成文本后，根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数；利用所述合成语音参数生成连续语音信号。利用本发明，可以有效提高合成语音的增强效果。 1
搜索关键词：	合成语音合成模型语音参数合成文本文本数据训练数据语音增强连续语音信号语音合成技术模型生成映射关系语音数据自然语音构建语音
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种实现合成语音增强的方法，其特征在于，包括：

基于训练数据构建初始语音合成模型，所述训练数据包括文本数据及与所述文本数据对应的语音数据；所述初始语音合成模型包括：时长模型、频谱模型、基频模型；

建立增强模型，所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系；

在接收到待合成文本后，根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数，包括：根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理，得到增强的频谱模型和/或基频模型；利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或基频参数；利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型之外的其它语音参数；

利用所述合成语音参数生成连续语音信号。

2.根据权利要求1所述的方法，其特征在于，所述建立增强模型包括：

根据所述初始语音合成模型生成所有训练数据的合成语音参数；

提取所有训练数据的自然语音参数；

确定增强模型的拓扑结构；

将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合，根据所述拓扑结构进行参数训练，得到增强模型。

3.根据权利要求2所述的方法，其特征在于，所述增强模型为：线性函数的映射模型、或者GMM模型、或者DNN模型。

4.根据权利要求1所述的方法，其特征在于，所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系为所述初始语音合成模型生成的合成语音参数与自然语音参数的条件分布。

5.根据权利要求1所述的方法，其特征在于，所述根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理，得到增强的频谱模型和/或基频模型包括：

从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数；

利用所述增强模型对所述模型参数进行增强处理，得到增强后的模型参数；

将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数，得到增强的频谱模型和/或基频模型。

6.一种实现合成语音增强的系统，其特征在于，包括：

初始模型建立模块，用于基于训练数据构建初始语音合成模型，所述训练数据包括文本数据及与所述文本数据对应的语音数据；所述初始语音合成模型包括：时长模型、频谱模型、基频模型；

增强模型建立模块，用于建立增强模型，所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系；

接收模块，用于接收待合成文本；

参数生成模块，用于根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数；所述参数生成模块包括：模型增强单元，用于根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理，得到增强的频谱模型和/或基频模型；增强语音参数生成单元，用于利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或基频参数；初始语音参数生成单元，用于利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型之外的其它语音参数；

合成模块，用于利用所述合成语音参数生成连续语音信号。

7.根据权利要求6所述的系统，其特征在于，所述增强模型建立模块包括：

合成语音参数生成单元，用于根据所述初始语音合成模型生成所有训练数据的合成语音参数；

自然语音参数提取单元，用于提取所有训练数据的自然语音参数；

拓扑结构确定单元，用于确定增强模型的拓扑结构；

训练单元，用于将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合，根据所述拓扑结构进行参数训练，得到增强模型。

8.根据权利要求6所述的系统，其特征在于，所述模型增强单元包括：

模型参数获取单元，用于从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数；

模型参数增强单元，用于利用所述增强模型对所述模型参数进行增强处理，得到增强后的模型参数；

增强模型生成单元，用于将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数，得到增强的频谱模型和/或基频模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载