[发明专利]基于自监督学习和互信息解耦技术的语音合成方法在审
申请号: | 202211191537.1 | 申请日: | 2022-09-28 |
公开(公告)号: | CN115578996A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 王龙标;贡诚;张句;王宇光;关昊天 | 申请(专利权)人: | 慧言科技(天津)有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/04;G10L13/02;G10L13/08;G10L13/10;G10L25/24;G10L25/30 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 程小艳 |
地址: | 300384 天津市华苑产业区海泰*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 互信 息解耦 技术 语音 合成 方法 | ||
1.基于自监督学习和互信息解耦技术的语音合成方法,其特征在于,包括如下四个步骤:
步骤一,数据预处理:文本需要进行前端处理,通常以字符作为输入,而文本与音频成对的数据可以作为训练数据;
预处理还需进行梅尔谱特征的提取;
步骤二,针对大模型采用自监督学习的方式进行训练:采用HUBERT和wav2vec模型作为预训练大模型,并采用大量的无标签方式对齐进行训练;
步骤三,设计说话人分类和风格分类两个任务作为下游任务,固定步骤二所训练模型的权重参数,用于得到任务相关的特征表示:
(1)步骤二中的大模型包含N层的神经网络,N层网络的输出[P1,P2,…,PN]都用来学习最后的任务相关特征表示;
(2)设计注意力机制模块,其为可以学习的神经网络层,用于将N层神经网络的输出进行加权,得到暂时的通用特征表示PF,如下公式所示:
PF=Atten(P1,P2,…,PN)
其中,Atten是为可学习的网络层,用来学习权重,对[P1,P2,…,PN]进行加权;
(3)说话人分类和风格分类采用线性层加激活函数用来预测属于哪一种说话人或哪一种风格类别的概率,并学习到初步的任务相关的特征Tspeaker和Tstyle;
步骤四,利用互信息对Tspeaker和Tstyle进行解耦,互信息反映两个变量的相关性,假设两个随机变量X、Y,两个变量之间的互信息MI(X;Y)可以通过计算联合概率分布PX,Y和两个边缘概率分布的乘积PXPY的KL散度来计算;
在整个下游任务的训练中,需要将MI(X;Y)也作为一种额外的损失函数进行约束,保证Tspeaker和Tstyle两者之间不会有相关性;
需要约束MI(X;Y)越来越小;
步骤五,将学习好的Tspeaker和Tstyle添加到端到端语音合成模型中,端到端语音合成模型采用encoder-attention-decoder结构;
其中,端到端模型先经过大规模数据的预训练,预训练时Tspeaker和Tstyle都全为0的向量,最后在多说话人和多风格数据集上进行finetune,得到最终的模型。
2.根据权利要求1所述的基于自监督学习和互信息解耦技术的语音合成方法,其特征在于,所述步骤四在神经网络中,对于两个高维的变量采用以下步骤来估算其互信息:
(1)初始化一个随机权重M;
(2)随机采取部分成对的随机变量(Ei,E′i),i=1,2,…,b.b为采样的大小;
(3)对E′i变量的内部元素进行随机的顺序打乱;
(4)计算两个变量之间的损失,如下公式:
(5)根据计算的更新M,其中ε为学习率,ΔM为梯度变化;
(6)重复2)-5)步骤,直到M收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧言科技(天津)有限公司,未经慧言科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211191537.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示面板边缘线缺陷检测方法及应用
- 下一篇:一种新型软开关阻抗网络