[发明专利]目标音频的输出方法及装置、系统有效
申请号: | 202111019704.X | 申请日: | 2021-09-01 |
公开(公告)号: | CN113724718B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 司马华鹏;龚雪飞;毛志强 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L25/90;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 阚梦诗 |
地址: | 223808 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 音频 输出 方法 装置 系统 | ||
本申请实施例提供了一种目标音频的输出方法及装置、系统,所述方法包括:将源音频输入语音后验图PPG分类网络模型,得到PPG特征向量,其中,PPG特征向量用于指示每一帧源音频对应的音素标签,PPG特征向量包含源音频的文本信息和韵律信息;将PPG特征向量输入声音转换网络模型,根据PPG特征向量对应的音素标签输出目标音频的声学特征向量,其中,目标音频包含多个不同音色的音频;将目标音频的声学特征向量输入声码器,通过声码器输出目标音频。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种目标音频的输出方法及装置、系统。
背景技术
相关技术中,语音转换技术是:将A说话人(源说话人)的语音转换成B说话人(目标说话人)的声音。根据目标说话人的数量,可以将语音转换系统分为To One(目标说话人是一个),To Many(目标说话人是多个)两种类型,语音转换系统在具体实现过程中,通常采用以下方案:
一,自动语音识别(Automatic Speech Recognition,简称为ASR)技术与从文本到语音(Text To Speech,简称为TTS)相结合:首先通过ASR模型将音频转换成文本,文本送入目标说话人的TTS模型,从而达到转换成目标说话人的效果;
二,通过生成式对抗网络(Generative Adversarial Networks,简称为GAN)提取音频的(瓶颈层)BNF特征,再经过vocoder(声码器)还原BNF特征,输出音频。
上述两个方案在实用上均存在较大问题,对于方案一:如果ASR识别错误,则TTS也必然转换错误;并且若需要实现多目标说话人转换,需要配置多个TTS模型,消耗大,并且多个TTS的韵律,语速均不一致。方案二:虽然该方案思路简单,但是模型收敛难以保证,效果停留在实验阶段。
针对相关技术中,语音转换系统在目标说话人是多个的场景下无法高效且准确的实现语音转换的技术问题,相关技术中尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种目标音频的输出方法及装置、系统,以至少解决相关技术中语音转换系统在目标说话人是多个的场景下无法高效且准确的实现语音转换的技术问题。
在本申请的一个实施例中,提出了一种目标音频的输出方法,包括:将源音频输入语音后验图PPG(Phonetic posteriorgrams)分类网络模型,得到PPG特征向量,其中,所述PPG特征向量用于指示所述每一帧源音频对应的音素标签,所述PPG特征向量包含所述源音频的文本信息和韵律信息;将所述PPG特征向量输入声音转换网络模型,根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量,其中,所述目标音频包含多个不同音色的音频;将所述目标音频的声学特征向量输入声码器,通过所述声码器输出所述目标音频。
在本申请的一个实施例中,还提出了一种目标音频的输出装置,包括:输入模块,配置为将源音频输入语音后验图PPG分类网络模型,得到PPG特征向量,其中,所述PPG特征向量用于指示所述每一帧源音频对应的音素标签;处理模块,配置为将所述PPG特征向量输入声音转换网络模型,根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量,其中,所述目标音频包含多个不同音色的音频;输出模块,配置为将所述目标音频的声学特征向量输入声码器,通过所述声码器输出所述目标音频。
在本申请的一个实施例中,还提出了一种目标音频的输出系统,包括:语音后验图PPG分类网络模型,配置为根据输入的源音频输出对应的PPG特征向量,其中,所述PPG特征向量用于指示所述每一帧源音频对应的音素标签,所述PPG特征向量包含所述源音频的文本信息和韵律信息;声音转换网络模型,配置为根据所述PPG特征向量对应的所述音素标签输出至少两个不同音色的目标音频的声学特征向量;声码器,配置为根据至少两个所述目标音频的声学特征向量输出至少两个所述目标音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111019704.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摆动调直装置及调直方法
- 下一篇:一种联盟链多语言外部链码离线编译方法与系统