[发明专利]语音转换方法、装置、设备以及存储介质在审

申请号：	202110731052.6	申请日：	2021-06-29
公开（公告）号：	CN113421576A	公开（公告）日：	2021-09-21
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G10L25/27;G10L25/18;G10L25/48
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	周雷
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音转换方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音转换方法，包括：将原始语音输入至预设的声码器进行分析，得到所述原始语音对应的基频信息和频谱信息；基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换，得到转换基频信息；基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换，得到转换频谱信息；将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成，得到转换语音。可见，本发明能够同时基于原始语音的基频和频谱进行原始语音的情感转换，提高最终得到的转换语音的情感相似度和自然度，提高情感语音转换技术的语音转换质量。本发明还涉及区块链技术领域。

技术领域

本发明涉及音频转换技术领域，尤其涉及一种语音转换方法、装置、计算机设备以及存储介质。

背景技术

情感语音转换技术(EVC)是语音转换技术(VC)的一种，其能够实现在保留语音内容和说话人身份的同时，将语音的情感从一种状态转换到另一种状态。目前，情感语音转换技术被广泛地应用在智能对话系统、语音助手与会话代理等应用中。情感语音转换技术早期的研究方法主要有高斯混合模型(GMM)、偏最小二乘回归(PLSR)及群稀疏表示方法，这些研究方法的语音转换质量都不够理想，如，转换后的语音的情感相似度和自然度都不够理想。近年，使用深度学习技术进行情感语音转换已取得一定的成效，如，将深度神经网络(DNN)与变分自编码器(VAE)应用在情感语音转换的过程中，大大提高了语音转换质量，但是使用深度学习技术进行情感语音转换的语音转换质量仍未能达到理想的标准。可见，目前的情感语音转换技术的语音转换质量仍有进一步提升的空间。

发明内容

本发明所要解决的技术问题在于，目前的情感语音转换技术的语音转换质量较低。

为了解决上述技术问题，本发明第一方面公开了一种语音转换方法，所述方法包括：

将原始语音输入至预设的声码器进行分析，得到所述原始语音对应的基频信息和频谱信息；

基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换，得到转换基频信息；

基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换，得到转换频谱信息；

将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成，得到转换语音。

本发明第二方面公开了一种语音转换装置，所述装置包括：

语音分析模块，用于将原始语音输入至预设的声码器进行分析，得到所述原始语音对应的基频信息和频谱信息；

基频转换模块，用于基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换，得到转换基频信息；

频谱转换模块，用于基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换，得到转换频谱信息；

语音合成模块，用于将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成，得到转换语音。