[发明专利]一种风格迁移合成方法、装置及电子设备在审
申请号: | 202111491886.0 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114187892A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/08;G10L13/033;G10L25/30;G10L19/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;丁芸 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风格 迁移 合成 方法 装置 电子设备 | ||
1.一种风格迁移合成方法,包括:
将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
2.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征,包括:
通过所述语音合成模型的风格抽取模块,提取所述目标音频片段中所有音频帧的平均音频特征,作为粗粒度音频特征;
通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,提取所述音频单元中所有音频帧的平均音频特征,作为所述音频单元的细粒度音频特征;
通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,将所述音频单元的所述细粒度音频特征与所述粗粒度音频特征相加,得到所述音频单元的叠加音频特征。
3.根据权利要求1所述的放法,其中,所述通过所述语音合成模型的内容风格交叉注意力子模型,针对目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,包括:
将目标文本中每个发音单元的发音特征输入至所述语音合成模型中内容风格交叉注意力子模型的自注意力子网络,得到所述子注意力子网络输出的经过调整的发音特征;
通过所述内容交叉子模型的交叉注意力子网络,针对所述目标文本中的每个发音单元,融合所述发音单元的经过调整的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述所述目标叠加音频特征为与经过调整的发音特征匹配的叠加音频特征。
4.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段,包括:
将所述目标文本中每个发音单元的所述融合特征、所述粗粒度音频特征输入至所述语音合成模型的声谱解码子模型,得到所述声谱解码子网络输出的声谱特征;
将所述声谱特征转换为具有所述目标语音风格且语音内容为所述目标文本的音频片段。
5.一种语音合成模型的训练方法,包括:
将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;
根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491886.0/1.html,转载请声明来源钻瓜专利网。