[发明专利]一种生成个性化语音的方法及装置在审

申请号：	201911046823.7	申请日：	2019-10-30
公开（公告）号：	CN110767210A	公开（公告）日：	2020-02-07
发明（设计）人：	周琳岷	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L13/047	分类号：	G10L13/047;G10L13/04;G10L25/24;G10L25/30
代理公司：	51213 四川省成都市天策商标专利事务所	代理人：	陈艺文
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种生成个性化语音的方法和装置。将目标语音的特征通过说话人音频特征提取单元生成目标的个性化语音特征向量，通过与文本特征向量结合，通过端到端文本特征转音频特征单元在生成的混合端到端模型上进行自适应学习，相当于在一个与目标语音特征最接近的输入上进行自适应学习，通过这种方法减少了自适应学习所需要的时间，并减少的神经网络拟合的反馈损失，降低了神经网络调整的幅度，提高了自适应学习的精确度。通过个性化后的声码器单元，减小了声码器合成代理的损失，提高了声音合成的自然度。
搜索关键词：	自适应学习个性化语音目标语音神经网络端到端声码器文本特征向量音频特征提取方法和装置单元生成声音合成特征向量文本特征音频特征自然度减小拟合个性化合成反馈代理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种生成个性化语音的方法，其特征在于，所述方法包括以下步骤：/n步骤a.采集目标样本语音和大规模样本语音，提取两种语音对应的样本声学特征；/n步骤b.利用所述两种语音对应的样本声学特征训练语音特征提取模型，生成对应的样本声音特征向量；/n步骤c.使用所述大规模样本语音的声音特征向量，结合所述大规模样本语音对应的文本，训练文本特征到声学特征的混合端到端模型；/n步骤d.将所述混合端到端模型生成的声学特征输入到神经网络声码器模型，所述神经网络声码器模型输出音频编码，训练生成声码器平均模型；/n步骤e.个性化阶段，用所述目标样本语音的声音特征向量和所述目标样本语音对应的文本在所述混合端到端模型的基础上进行自适应模型训练，训练个性化端到端模型；/n步骤f.用所述个性化端到端模型生成目标的声学特征，在所述声码器平均模型上进行自适应模型训练，训练个性化声码器模型；/n步骤g.合成阶段，将需求文本的特征向量和目标的声音特征向量结合作为输入，通过所述个性化端到端模型得到目标的声学特征，结合所述个性化声码器模型输出得到需求目标语音。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201911046823.7/，转载请声明来源钻瓜专利网。

上一篇：语音合成方法、装置、系统和存储介质
下一篇：一种基于文本内容数据清洗的语音合成播报系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种生成个性化语音的方法及装置在审

专利文献下载