[发明专利]一种模型训练和语音交互的方法及装置在审
申请号: | 202110509888.1 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113314092A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 张永超;王俊;虞国桥 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/08;G10L15/02;G10L15/26;G10L25/87 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 语音 交互 方法 装置 | ||
本说明书公开了一种模型训练和语音交互的方法及装置,业务平台可以获取语音数据,并根据该语音数据,确定该语音数据对应的待补偿语音信息,其中,该待补偿语音信息用于表征语音数据中包含的各语音单元对应的原始语音特征。而后,确定该语音数据对应的发音习惯特征,并根据该发音习惯特征,对该待补偿语音信息进行补偿,得到补偿后语音信息,以及将该补偿后语音信息输入到待训练的语音合成模型,得到语音合成结果,最后,以最小化该语音合成结果与该语音数据之间的偏差为优化目标,对该语音合成模型进行训练,从而,通过该语音合成模型进行语音合成,能够降低自动合成的语音与人们平时说出的语音之间的偏差。
技术领域
本说明书涉及机器学习领域,尤其涉及一种模型训练和语音交互的方法及装置。
背景技术
随着信息技术的不断发展,智能语音客服、语音导航等依赖于自动合成语音的业务已经逐渐融入到人们的生活中,为人们的生活带来了便利。
在这些业务中,如何自动进行语音的合成是更好实现这些业务的重点,而在现有技术中,自动合成的语音通常与人们平时的说话偏差较大,例如,有些自动合成的语音较为机械化,说出的每个字的时间间隔通常较为一致,若是将这种语音应用到上述智能语音客服、语音导航等业务时,用户可能会难以适应这样的语音。
所以,如何降低自动合成的语音与人们平时说出的语音之间的偏差,则是一个亟待解决的问题。
发明内容
本说明书提供一种模型训练和语音交互的方法及装置,以部分地解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
获取语音数据;
根据所述语音数据,确定所述语音数据对应的待补偿语音信息,所述待补偿语音信息用于表征所述语音数据中包含的各语音单元对应的原始语音特征;
确定所述语音数据对应的发音习惯特征,并根据所述发音习惯特征,对所述待补偿语音信息进行补偿,得到补偿后语音信息;
将所述补偿后语音信息输入到待训练的语音合成模型,得到语音合成结果;
以最小化所述语音合成结果与所述语音数据之间的偏差为优化目标,对所述语音合成模型进行训练。
可选地,根据所述语音数据,确定所述语音数据对应的待补偿语音信息,具体包括:
对所述语音数据进行切分,得到各子句,其中,每个子句中包含有至少一个语音单元;
针对每个子句,确定该子句对应的待补偿语音信息;
根据每个子句对应的待补偿语音信息,确定所述语音数据对应的待补偿语音信息。
可选地,根据所述语音数据,确定所述语音数据对应的待补偿语音信息,具体包括:
确定所述语音数据中的至少一个音源,并根据所述语音数据,确定所述至少一个音源中每个音源对应的音频数据;
根据所述至少一个音源中每个音源对应的音频数据,从所述至少一个音源中选取出目标音源;
根据所述目标音源对应的音频数据,确定所述语音数据对应的待补偿语音信息。
可选地,根据所述至少一个音源中每个音源对应的音频数据,从所述至少一个音源中选取出目标音源,具体包括:
根据所述至少一个音源中每个音源对应的音频数据,确定所述至少一个音源对应的整体声纹特征,以及确定所述至少一个音源中包含的每个音源对应的音源声纹特征;
根据所述整体声纹特征以及所述至少一个音源中包含的每个音源对应的音源声纹特征,从所述至少一个音源中选取出目标音源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509888.1/2.html,转载请声明来源钻瓜专利网。