[发明专利]一种风格迁移合成方法、装置及电子设备在审
申请号: | 202111491886.0 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114187892A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L13/033;G10L25/30;G10L19/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;丁芸 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风格 迁移 合成 方法 装置 电子设备 | ||
本公开提供了一种风格迁移合成方法、装置及电子设备。涉及人工智能技术领域,尤其涉及深度学习、语音合成、风格迁移技术领域,具体涉及一种语音风格迁移合成方法、装置及电子设备。具体实现方案为:将目标文本和目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;针对目标音频片段中每个音频单元,叠加粗粒度音频特征和细粒度音频特征,得到音频单元的叠加音频特征;提取目标文本中每个发音单元的发音特征;针对目标文本中的每个发音单元,融合发音单元的发音特征以及目标叠加音频特征,得到发音单元的融合特征;根据融合特征,合成音频片段。能够合成在整体和细节上具有目标风格的音频片段。
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、语音合成、风格迁移技术领域,具体涉及一种语音风格迁移合成方法、装置及电子设备。
背景技术
出于各种实际需求,如为实现语音聊天软件中提供的变声功能、隐藏说话人的真实身份等,需要根据给定的一个音频片段以及文本,合成得到具有与该音频片段具有相同语音风格且语音内容为该文本的音频片段,由于该过程可以视为将音频片段的语音风格迁移至文本,因此该过程称为风格迁移合成。
发明内容
本公开提供了一种风格迁移合成方法、装置及电子设备。
根据本公开的第一方面,提供了一种风格迁移合成方法,包括:
将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
根据本公开的第二方面,提供了一种语音合成模型的训练方法,包括:
将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;
根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
根据本公开的第三方面,提供了一种风格迁移合成装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491886.0/2.html,转载请声明来源钻瓜专利网。