[发明专利]一种基于可控最大熵自编码器的零样本语音风格迁移方法在审
申请号: | 202111042601.5 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113889069A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 熊盛武;路雄博;荣毅;陈亚雄 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/18;G10L25/30;G06K9/62;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可控 最大 编码器 样本 语音 风格 迁移 方法 | ||
1.一种基于可控最大熵自编码器的零样本语音风格迁移方法,其特征在于,包括如下步骤:
步骤1:通过多个说话人的语音构建语音数据集,人工标注语音数据集中每段语音对应的说话人,将每段语音对应的说话人采用one-hot的编码方式进行编码得到每段语音对应的标注标签,通过每段语音对应的标注标签构建标签数据集;
步骤2,构建可控熵风格特征提取分类网络,将语音数据集中每段语音通过语音信号梅尔谱图计算方法得到语音数据集中段语音对应的梅尔谱图,将每段语音对应的梅尔谱图依次输入至可控熵风格特征提取分类网络预测分类得到每段语音预测的说话人,结合标签数据集每段语音的说话人构建可控熵风格特征提取分类网络损失函数模型,进一步通过梯度反向传播法进行优化得到优化后可控熵风格特征提取分类网络;
步骤3:构建无标注语音数据集;
步骤4:构建可控最大熵语音风格迁移自编码器网络,将无标注语音数据集中每段语音通过语音信号梅尔谱图计算方法得到无标注语音中段语音对应的梅尔谱图,将每段无标注语音对应的梅尔谱图依次输入至可控最大熵语音风格迁移自编码器网络生成重构的语音梅尔谱图,结合相应的输入无标注语音中段语音对应的梅尔谱图构建可控最大熵语音风格迁移自编码器模型损失函数模型,进一步通过梯度反向传播法进行优化得到优化后可控最大熵语音风格迁移自编码器模型;
步骤5:引入源语音以及目标语音,将源语音以及目标语音分别通过梅尔谱图计算得到源语音对应的梅尔谱图、目标语音对应的梅尔谱图,将目标语音对应的梅尔谱图依次通过步骤2所述优化后的可控最大熵语音风格迁移自编码器网络的可控熵风格特征提取器、过步骤2所述可控最大熵语音风格迁移自编码器网络的语音风格采样器进行风格特征提取,得到目标语音对应的风格特征;将源语音通过步骤4所述优化后的可控最大熵语音风格迁移自编码器网络的可控熵内容特征提取器、步骤4所述优化后的可控最大熵语音风格迁移自编码器网络语音内容采样器,进行内容特征提取,得到源语音对应的内容特征;将目标语音对应的风格特征、源语音对应的内容特征通过步骤4所述优化后的可控最大熵语音风格迁移自编码器网络的解码器进行融合得到生成风格迁移后语音样本的梅尔谱图,将风格迁移后语音样本的梅尔谱图通过频谱逆变器转换为风格迁移之后的语音片段。
2.根据权利要求1所述的基于可控最大熵自编码器的零样本语音风格迁移方法,其特征在于,步骤1所述语音数据集为:
S={X1,X2,…,XN}
Xi=(xi,1,xi,2,...,xi,Ti)
i∈[1,N]
其中,Xi表示语音数据集中第i段语音,N表示语音数据集中语音段的数量,Ti表示语音数据集中第i段语音中帧的数量,xi,t表示语音数据集中第i段语音中第t帧语音片段;
步骤1所述标签数据集为:
YS={Y1,Y2,…,YN}
其中,Yi标签数据集中第i段语音的说话人,N表示语音数据集中语音段的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042601.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电感元件及其制造方法
- 下一篇:服务器