[发明专利]语音转换方法、装置、设备以及存储介质在审
申请号: | 202110731052.6 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113421576A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 张旭龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/27;G10L25/18;G10L25/48 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周雷 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 装置 设备 以及 存储 介质 | ||
本发明公开了一种语音转换方法,包括:将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。可见,本发明能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。本发明还涉及区块链技术领域。
技术领域
本发明涉及音频转换技术领域,尤其涉及一种语音转换方法、装置、计算机设备以及存储介质。
背景技术
情感语音转换技术(EVC)是语音转换技术(VC)的一种,其能够实现在保留语音内容和说话人身份的同时,将语音的情感从一种状态转换到另一种状态。目前,情感语音转换技术被广泛地应用在智能对话系统、语音助手与会话代理等应用中。情感语音转换技术早期的研究方法主要有高斯混合模型(GMM)、偏最小二乘回归(PLSR)及群稀疏表示方法,这些研究方法的语音转换质量都不够理想,如,转换后的语音的情感相似度和自然度都不够理想。近年,使用深度学习技术进行情感语音转换已取得一定的成效,如,将深度神经网络(DNN)与变分自编码器(VAE)应用在情感语音转换的过程中,大大提高了语音转换质量,但是使用深度学习技术进行情感语音转换的语音转换质量仍未能达到理想的标准。可见,目前的情感语音转换技术的语音转换质量仍有进一步提升的空间。
发明内容
本发明所要解决的技术问题在于,目前的情感语音转换技术的语音转换质量较低。
为了解决上述技术问题,本发明第一方面公开了一种语音转换方法,所述方法包括:
将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
本发明第二方面公开了一种语音转换装置,所述装置包括:
语音分析模块,用于将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基频转换模块,用于基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
频谱转换模块,用于基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
语音合成模块,用于将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音转换方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的语音转换方法中的部分或全部步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731052.6/2.html,转载请声明来源钻瓜专利网。