[发明专利]语音转换方法、语音转换模型的训练方法、装置和介质在审
申请号: | 202110462563.2 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113345452A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 刘皓冬;李栋梁;刘恺 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L15/06;G10L15/22;G10L21/007;G10L25/03;G10L25/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转换 方法 模型 训练 装置 介质 | ||
本发明实施例提供了一种语音转换方法、语音转换模型的训练方法、装置和介质,其中的训练方法具体包括:确定第一训练数据;所述第一训练数据包括:N个训练样本;根据所述N个训练样本,对语音转换模型进行训练;所述对语音转换模型进行训练,包括:从所述训练样本对应的语音识别结果中,滤除所述训练样本对应的音色信息。本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度,进而能够提高语音转换的效果。
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音转换方法、语音转换模型的训练方法、装置和介质。
背景技术
语音转换技术是一种保持语义内容不变的情况下,将源语音转换为目标语音的技术,其中,源语音为第一人声发出的语音,目标语音为第二人声发出的语音。换言之,将第一人声发出的源语音通过语音转换技术,转换为语义相同的第二人声发出的目标语音。
目前的语音转换方法,通常包括:首先,对源语音进行语音识别,得到对应的语音识别结果;然后,根据上述语音识别结果和第二人声的信息,确定目标声学特征,该目标声学特征用于合成目标语音。
发明人在实施本发明实施例的过程中发现,语音识别结果中通常包括源语音的相关信息,如语气信息、音调信息、文本信息和音色信息等信息,传统技术一律保留这些相关信息,并根据这些相关信息得到目标声学特征,这将导致转换后的目标语音中带有第一人声的音色信息,进而影响目标语音的音色与第二人声的音色之间的相似度,使得语音转换的效果较差。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音转换方法、装置和介质,本发明实施例能够提高目标语音的音色与第二人声的音色之间的相似度,进而能够提高语音转换的效果。
为了解决上述问题,本发明公开了一种语音转换模型的训练方法,包括:
确定第一训练数据;所述第一训练数据包括:N个训练样本;
根据所述N个训练样本,对语音转换模型进行训练;
所述对语音转换模型进行训练,包括:
从所述训练样本对应的语音识别结果中,滤除所述训练样本对应的音色信息。
为了解决上述问题,本发明公开了一种语音转换方法,包括:
接收源语音;所述源语音为第一人声发出、且待转换为第二人声的语音;
对所述源语音进行语音转换;
从所述源语音对应的语音识别结果中滤除源语音对应的音色信息,确定所述源语音和第二人声对应的目标声学特征和目标语音。
另一方面,本发明实施例公开了一种语音转换模型的训练装置,包括:
第一确定模块,用于确定第一训练数据;所述第一训练数据包括:N个训练样本;
第一训练模块,用于根据所述N个训练样本,对所述语音转换模型进行训练;
其中,所述第一训练模块包括:
滤除模块,用于从所述训练样本对应的语音识别结果中,滤除所述训练样本对应的音色信息。
另一方面,本发明实施例公开了一种语音转换装置,包括:
接收模块,用于接收源语音;所述源语音为第一人声发出、且待转换为第二人声的语音;
转换模块,用于利用语音转换模型,对所述源语音进行语音转换;
所述转换模块包括:
滤除模块,用于从所述源语音对应的语音识别结果中滤除源语音对应的音色信息,确定所述源语音和第二人声对应的目标声学特征和目标语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110462563.2/2.html,转载请声明来源钻瓜专利网。