[发明专利]语音合成模型获取方法、装置、电子设备及存储介质有效

申请号：	202011294266.3	申请日：	2020-11-18
公开（公告）号：	CN112581933B	公开（公告）日：	2022-05-03
发明（设计）人：	韩润强;孙涛;卿睿;魏建强	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L13/00	分类号：	G10L13/00;G10L17/04;G06N20/00
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	谷春静
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成模型获取方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音合成模型获取方法，包括：

根据各自对应的训练语音数据，分别获取目标发音人以及至少一个非目标发音人的音色特征；所述音色特征包括频谱包络特征；针对任一发音人，获取所述发音人的频谱包络特征包括：将所述发音人的各条训练语音数据分别进行分帧处理，分别获取各帧语音数据对应的幅度谱，针对每个频点，分别获取各帧语音数据对应的幅度谱中所述频点对应的幅度的均值，将所述均值作为所述频点对应的特征值；所述训练语音数据保存在预先构建的语音数据库中，所述语音数据库中包括不同发音人的训练语音数据；

针对至少一个非目标发音人，进行以下处理：以所述目标发音人为调整目标，根据所述非目标发音人与所述目标发音人的音色特征的差异，对所述非目标发音人的训练语音数据进行调整，包括：针对每个频点，分别计算所述目标发音人的所述频点对应的特征值与所述非目标发音人的所述频点对应的特征值的比值，得到所述频点对应的特征比值，针对所述非目标发音人的每帧语音数据，分别将对应的幅度谱中不同频点对应的幅度与频点对应的特征比值相乘；

根据所述目标发音人的训练语音数据以及调整后的所述非目标发音人的训练语音数据，训练语音合成模型。

2.根据权利要求1所述的方法，其中，

所述语音合成模型为多语言的语音合成模型；

所述目标发音人和所述非目标发音人分别对应于不同的语言，且不同的非目标发音人分别对应于不同的语言。

3.根据权利要求1所述的方法，其中，

所述音色特征还包括：基频特征；

所述以所述目标发音人为调整目标，根据所述非目标发音人与所述目标发音人的音色特征的差异，对所述非目标发音人的训练语音数据进行调整还包括：

根据所述非目标发音人与所述目标发音人的基频特征的差异，对所述非目标发音人的训练语音数据进行基频调整。

4.根据权利要求1所述的方法，还包括：

针对任一发音人，去除所述发音人的训练语音数据中的静音部分，根据去除所述静音部分后的训练语音数据，获取所述发音人的所述频谱包络特征。

5.根据权利要求3所述的方法，其中，针对任一发音人，获取所述发音人的基频特征包括：

分别获取所述发音人的各条训练语音数据中的基频；