[发明专利]一种基于可控最大熵自编码器的零样本语音风格迁移方法在审

申请号：	202111042601.5	申请日：	2021-09-07
公开（公告）号：	CN113889069A	公开（公告）日：	2022-01-04
发明（设计）人：	熊盛武;路雄博;荣毅;陈亚雄	申请（专利权）人：	武汉理工大学
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/08;G10L25/18;G10L25/30;G06K9/62;G06N3/04
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	许莲英
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于可控最大编码器样本语音风格迁移方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于可控最大熵自编码器的零样本语音风格迁移方法，其中，方法包括：构建标签为说话人的语音数据集；构建可控熵风格特征提取分类网络，利用语音数据集语音及其标签对该网络参数进行优化；构建无标注语音数据集；构建可控最大熵语音风格迁移自编码器网络，利用无标注语音数据集语音对该网络参数进行优化；引入源语音以及目标语音，利用可控最大熵语音风格迁移自编码器网络对源语音以及目标语音进行风格迁移，将风格迁移后语音样本的梅尔谱图通过频谱逆变器转换为风格迁移之后的语音片段。本发明的技术方案，训练简单，易于收敛，实现了风格特征和内容特征的解耦，可以解决零样本、少样本、多语言的语音风格迁移任务。

技术领域

本发明属于语音合成技术领域，具体涉及一种基于可控最大熵自编码器的零样本语音风格迁移方法；

背景技术

语音风格迁移(Voice Style Transfer)，其目标为给定源人物和目标人物的不同说话语音，使得源人物的说话内容以目标人物的语音风格说出；语音风格迁移是实现客制化人机交互的核心系统之一；其日益成为语音处理技术中的一个重要研究方向，有着极其重要的研究价值和现实应用基础；特别是任意人少样本情况下的语音风格迁移，在隐私和身份保护、创意产业、游戏、导航、读书以及悼念活动中有着可预估的良好应用；

当给定的目标人物的语音材料比较丰富时，语音风格迁移可以当作时传统语音合成的特例(语音合成的输入为文本，输出为语音；而语音风格迁移的输入和输出都为语音)；传统的语音合成包括统计参数法和拼接法；其中，统计参数法根据统计模型建立文本到声学特征的映射，再利用这些声学特征还原其语音波形，通常此类方法合成的语音质量较低；拼接法事先录制好目标人物大量语音并对这些语音的内容进行标注，在合成时，通过文本内容选取对应语音，进对选取到的语音进行拼接，通常此类方法需要构建一个较为庞大的数据集，在具体使用时会有一定限制；

近年来，随着计算机硬件和深度学习的发展，很多人在语音合成领域做出了不错的工作；Tacotron2和FastSpeech是其中两个较为杰出的工作；然而它们解决的依旧是传统的语音合成问题；这就导致基于他们的方法不能很好的解决只有少量样本甚至零样本的语音风格迁移任务；最近，随着风格迁移(Style Transfer)，生成对抗网络(GenerativeAdversarial Nets)以及条件变分自编码器(Conditional Vibrational autoencoder)的提出及应用，越来越多的人将此类技术应用于语音风格迁移问题，然而这些在图片风格迁移问题上应用比较成功的方法在语音风格迁移问题上面临生成语音不够真实、需要成对数据(paired data)、训练复杂不可控、不能解决小样本(few-shot)或零样本(zero-shot)问题；

发明内容

本发明的目的是为了解决上述背景技术中存在的不足；因此，提出了一种基于可控最大熵自编码器的零样本语音风格迁移方法用于合成风格语音；

为了实现上述目的，本发明所采用的技术方案为：

一种基于可控最大熵自编码器的零样本语音风格迁移方法，其特征在于，包括如下步骤：

步骤1：通过多个说话人的语音构建语音数据集，人工标注语音数据集中每段语音对应的说话人，将每段语音对应的说话人采用one-hot的编码方式进行编码得到每段语音对应的标注标签，通过每段语音对应的标注标签构建标签数据集；

步骤2，构建可控熵风格特征提取分类网络，将语音数据集中每段语音通过语音信号梅尔谱图计算方法得到语音数据集中段语音对应的梅尔谱图，将每段语音对应的梅尔谱图依次输入至可控熵风格特征提取分类网络预测分类得到每段语音预测的说话人，结合标签数据集每段语音的说话人构建可控熵风格特征提取分类网络损失函数模型，进一步通过梯度反向传播法进行优化得到优化后可控熵风格特征提取分类网络；

步骤3：构建无标注语音数据集；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111042601.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于可控最大熵自编码器的零样本语音风格迁移方法在审

专利文献下载