[发明专利]跨语言语音转换方法、装置、设备及介质在审
申请号: | 202110602042.2 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113345431A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 倪子凡;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G10L15/00;G10L13/027;G10L25/24 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 语音 转换 方法 装置 设备 介质 | ||
本发明涉及人工智能领域,提供一种跨语言语音转换方法、装置、设备及介质,能够训练每个目标语言的ASR模型,及训练转换模型,当接收到待处理语音时,利用每个目标语言的ASR模型生成所述待处理语音的PPGs,进一步将所述待处理语音的PPGs输入至所述转换模型,并获取所述转换模型的输出作为所述待处理语音的声学语音参数,启动声码器根据所述待处理语音的声学语音参数合成语音,进而实现跨语言语音转换,并解决使用单个用户录制多语言语料库所带来的困难。此外,本发明还涉及区块链技术,训练得到的模型可存储于区块链节点中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种跨语言语音转换方法、装置、设备及介质。
背景技术
语音转换(voice conversion,VC)是语音合成研究领域中的热门研究方向,旨在保留同一机器人语音特征的同时实现跨多语言的扩展功能。
目前,业内对于语音转换的研究应用很多,包括各大公司的语音助手以及智能人机交互等语音技术产品。
但是,基于现有的语音转换技术,当同一机器人为不同语言或方言而改变声音特征时,会变得十分不自然。所以,各大人工智能企业都在研究和实现中英文跨语言以及各大方言的语音转换功能,并希望在保留语音特征的同时扩展多语言支持,从而提高用户对于机器人跨语言功能的满意度,同时提升用户的体验感。
现有的多语言TTS(Text To Speech,从文本到语音)系统,通常需要使用单个说话人录制的多语言语料库,显然,在这种方式下,录制难度会因语言种类的增加而增加。因此,使用传统方法来生成一个支持多语言、多方言的TTS系统是很难实现的。
发明内容
鉴于以上内容,有必要提供一种跨语言语音转换方法、装置、设备及介质,能够实现跨语言语音转换,并解决使用单个用户录制多语言语料库所带来的困难。
一种跨语言语音转换方法,所述跨语言语音转换方法包括:
获取预先配置的多个目标语言,并调用与所述多个目标语言相对应的多个通用语料库;
提取每个通用语料库中语料的梅尔频率倒谱系数MFCC作为训练数据,并分别训练对应于每个目标语言的自动语音识别ASR模型;
调用文本转换TTS语料库,并从所述TTS语料库中获取所述TTS语料库所存储的每个语料的声学语音参数;
提取每个语料的MFCC,将每个语料的MFCC分别输入至每个目标语言的ASR模型,并获取每个目标语言的ASR模型的输出作为每个语料对应于每个目标语言的语音后验概率PPG;
对每个语料对应于每个目标语言的PPG进行融合处理,得到每个语料的目标语音后验概率PPGs;
将每个语料的PPGs确定为输入,将每个语料的声学语音参数确定为输出,并训练指定神经网络模型,得到转换模型;
当接收到待处理语音时,利用每个目标语言的ASR模型生成所述待处理语音的PPGs;
将所述待处理语音的PPGs输入至所述转换模型,并获取所述转换模型的输出作为所述待处理语音的声学语音参数;
启动声码器根据所述待处理语音的声学语音参数合成语音。
根据本发明优选实施例,所述提取每个通用语料库中语料的梅尔频率倒谱系数MFCC包括:
将所述多个通用语料库中的每个语料确定为目标语料;
对于每个目标语料,对所述目标语料进行预加重、分帧及加窗处理,得到第一语料;
对所述第一语料进行快速傅立叶变换,得到频谱;
将所述频谱输入至梅尔滤波器组,得到梅尔频谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110602042.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:热泵空调系统
- 下一篇:一种传媒广告牌防强风装置