[发明专利]一种语音合成方法、装置、电子设备及存储介质在审
申请号: | 202110921087.6 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113611283A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 李建强;邸远航;付光晖;董向民 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/027 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王宇杨 |
地址: | 100022 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 电子设备 存储 介质 | ||
本申请实施例公开了一种语音合成方法、装置、电子设备及存储介质。所述方法包括:获取待进行语音合成的目标语音;将所述目标语音输入至语音合成模型中,得到合成语音;所述合成语音的语音属性由所述目标语音的语音属性组成。本申请实施例通过语音合成模型将多个目标语音的语音属性进行自由组合,生成新的语音,可以实现全局多属性可控的语音合成,而且保持全局语音信息一致。
技术领域
本申请涉及语音处理技术领域,具体涉及一种语音合成方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展,基于深度学习的研究在语音领域引起了广泛关注,在专业音频编辑、音乐创作、声音设计和电影后期制作(包括配音)等应用程序上取得了很大的成功。其中,一段语音包含以下信息:语言学内容(语音表述的内容)、说话人特征(如一个人的音色、音调等)和副语言特征(如情感等)。
目前在语音合成的研究中,现有技术只能够实现局部属性可控的语音合成,其所生成的语音仅仅是局部属性的改变。例如仅单一改变语音的内容特征,无法对说话人特征和情感特征进行可控的解耦。
发明内容
由于现有方法存在上述问题,本申请实施例提供一种语音合成方法、装置、电子设备及存储介质。
具体的,本申请实施例提供了以下技术方案:
第一方面,本申请实施例提供了一种语音合成方法,包括:
获取待进行语音合成的目标语音;
将所述目标语音输入至语音合成模型中,得到合成语音;所述合成语音的语音属性由所述目标语音的语音属性组成;
其中,所述语音合成模型基于以下步骤进行训练,包括:
步骤1、获取具有相同语音属性的样本语音,并提取所述样本语音的语音特征,将所述语音特征输入至训练后的编码器中,得到语音特征向量;
步骤2、将所述语音特征向量输入至特征映射网络进行语音属性预划分,得到所述样本语音的各个语音属性对应的特征向量;
步骤3、将具有相同语音属性的特征向量进行交换,得到交换后的第一样本语音特征向量集合和第二样本语音特征向量集合;
步骤4、根据所述第一样本语音特征向量集合和所述第二样本语音特征向量集合,求解预设的语音属性交换损失函数,所述语音属性交换损失函数越小表示交换相同语音属性的特征向量后的语音与样本语音越接近;
步骤5、通过不断优化所述语音属性交换损失函数进行模型优化,当所述语音属性交换损失函数小于预设阈值时训练结束,从而获取训练好的语音合成模型。
可选的,训练所述编码器,包括:
根据输入所述编码器的语音特征和由解码器输出的合成语音,求解预设的编码器预训练损失函数,并基于所述编码器预训练损失函数对所述语音合成模型进行预训练。
可选的,所述特征映射网络由内容映射特征网络、说话人特征映射网络和情感特征映射网络组成;
相应的,将所述语音特征向量输入至特征映射网络进行语音属性预划分,得到所述样本语音的不同语音属性对应的特征向量,包括:
将所述语音特征向量输入至内容映射特征网络,得到所述样本语音的内容属性对应的内容特征向量,以及,将所述语音特征向量输入至说话人特征映射网络,得到所述样本语音的说话人属性对应的说话人特征向量,以及,将所述语音特征向量输入至情感特征映射网络,得到所述样本语音的情感属性对应的情感特征向量。
可选的,在得到所述样本语音的各个语音属性对应的特征向量后,还包括:
根据述样本语音的各个语音属性对应的特征向量进行语音重建,得到重建后的语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921087.6/2.html,转载请声明来源钻瓜专利网。