[发明专利]一种快速语音克隆方法在审
申请号: | 202110657034.8 | 申请日: | 2021-06-12 |
公开(公告)号: | CN113436607A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 赵莉;陈非凡;赵瑞霞;史嘉琪;许鹤馨 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/10;G10L25/30;G10L15/16 |
代理公司: | 西安赛嘉知识产权代理事务所(普通合伙) 61275 | 代理人: | 王伟超 |
地址: | 710021 陕西省西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 语音 克隆 方法 | ||
本发明涉及一种快速语音克隆方法,包括如下步骤:步骤101、利用编码器模块获取声学特征;步骤102、利用合成器模块合成梅尔谱图;步骤103、利用声码器模块将梅尔谱图转换成克隆语音;该快速语音克隆方法,采用了3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上克隆出良好效果的克隆语音,具有失真率低,频谱相似度高,对齐度高的优点。
技术领域
本发明属于语音克隆技术领域,具体涉及一种快速语音克隆方法。
背景技术
随着语音学的研究和发展,语音技术也日新月异。如今的语音技术主要包括语音合成和语音识别两大类。一般来说,对语音中的声学特征进行改变或调整的技术被称为语音转换。而对语音进行处理,通过改变说话人的声学特征,如频谱、共振峰等,使其与另一说话人的音色相似的技术则是语音克隆。实现语音克隆的方法通常有两种,通过改变原始语音中的声学特征,使其与目标说话人的声学特征近似,以将原始语音转换成目标说话人音色的语音。本技术所说的语音克隆则是另一种,通过提取目标说话人语音特征后再根据文字进行特定的语音合成。
语音克隆的研究始于18世纪,Kratzenstein使用气囊风箱簧片等材料模仿人的发声器官和发声过程,并加以改造,以此发出不同的元音。20世纪初,贝尔实验室发明了一种电子合成器,可以通过模拟声音的谐振发声。到了20世纪后期,使用集成电路技术的共振峰合成器的也相继出现,其可以构建滤波器的声道可以通过精心调整参数合成出自然的语音。接着波形拼接合成方法也随即出现。21世纪初刘庆峰博士将复杂的语音以听感量化单元进行表征,并以此技术占据当时的80%的中文语音合成市场。随着硬件算力的提升,基于人工智能的语音克隆技术层出不穷,卷积神经网络和长短期记忆神经网络等各种神经网络构型都可以用来做语音克隆系统的训练,对语音的韵律进行更加精准的调整,并且训练出成熟模型后不需要大量人力进行人工调整。
传统语音克隆的方法有矢量量化、隐马尔科夫模型、高斯混合模型等方法,此类方法均有过平滑和语音特征处理较弱的缺点,同时需要手动的对韵律和频谱图进行调整,需要的人工成本较高。目前现有的语音克隆方案依托于大量的数据集和人工对于韵律的调整,条件苛刻并且耗时耗力。同时中文高质量的开源语音数据较为匮乏,许多语音数据被科大讯飞等公司独占。
发明内容
为了解决现有语音克隆技术的缺陷问题,本发明提出了一种快速语音克隆方法,其可以使用目前的开源数据集并在低性能设备上实现良好的效果。
本发明所述的一种快速语音克隆方法,包括如下步骤:
步骤101、利用编码器模块获取声学特征;
步骤102、利用合成器模块合成梅尔谱图;
步骤103、利用声码器模块将梅尔谱图转换成克隆语音。
进一步的,所述步骤101、利用编码器模块获取声学特征的具体过程是:
步骤201、将目标的音频文件进行预处理后得到40维MFCC;
步骤202、将40维MFCC输入到3层LSTM中,从中提取出声学隐藏特征;
步骤203、将声学隐藏特征输入到全连接层中,对声学特征进行归类;
步骤204、将经过归类的声学特征进行缩放,并通过RELU层去除冗余数据,使目标的声学特征稀疏化。
进一步的,所述声学特征通过相似度矩阵进行表示:如下式(3):
其中,第i个说话人的第j个语音定义为uij(1≤i≤N,1≤j≤M),xij表示语音uij的对数梅尔频谱图,eij表示目标的特征,目标特征的均值定义为目标特征的质心ci,如式(1)所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110657034.8/2.html,转载请声明来源钻瓜专利网。