[发明专利]一种语音生成方法、装置、设备及存储介质在审
| 申请号: | 202210867412.X | 申请日: | 2022-07-22 |
| 公开(公告)号: | CN115472185A | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 方昕;章子睿;刘晨宁 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G11B20/10 | 分类号: | G11B20/10;G10L13/027 |
| 代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 尚文文 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 生成 方法 装置 设备 存储 介质 | ||
1.一种语音生成方法,其特征在于,包括:
根据录音文本以及目标语音情感效果,生成录音情感引导信息;
输出所述录音情感引导信息,以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本;
采集所述目标发音人对所述录音文本的朗读语音,得到与所述录音文本对应的语音数据。
2.根据权利要求1所述的方法,其特征在于,根据录音文本以及目标语音情感效果,生成录音情感引导信息,包括:
根据录音文本以及目标语音情感效果,生成与所述录音文本的情境相匹配和/或与所述目标语音情感效果的情感基调相同的录音情感引导信息。
3.根据权利要求1所述的方法,其特征在于,所述录音情感引导信息,包括录音情感引导视频、录音情感引导音频和录音情感引导文本中的至少一项;
所述录音情感引导音频,包括录音情感引导语音和录音情感引导音乐中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测所述目标发音人对所述录音文本的朗读语音的音色,与所述目标发音人的设定情感的朗读语音的音色是否一致;
若所述目标发音人对所述录音文本的朗读语音的音色与所述目标发音人的设定情感的朗读语音的音色不一致,则舍弃所述目标发音人对所述录音文本的朗读语音。
5.根据权利要求1所述的方法,其特征在于,在输出所述录音情感引导信息之前,所述方法还包括:
根据录音文本、目标语音情感效果,以及候选发音人的画像信息,从候选发音人中筛选得到目标发音人;
其中,候选发音人的画像信息,包括发音人基本信息、发音人人设信息以及发音人发音特点信息;
所述发音人基本信息包括性别、年龄、国籍和口音中的至少一项;所述发音人人设信息包括性格、职业和受众中的至少一项;所述发音人发音特点信息包括音色、发音风格、希望的发音角色和/或发音风格、不希望的发音角色和/或发音风格中的至少一项。
6.根据权利要求1所述的方法,其特征在于,在根据录音文本以及目标语音情感效果,生成录音情感引导信息之前,所述方法还包括:
根据所述录音文本,生成与所述录音文本对应的口语化录音文本。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:
将与所述录音文本对应的语音数据输入预先训练的语音识别模型,得到对所述语音数据的音素识别结果;
根据所述音素识别结果,对所述语音数据进行音素标注。
8.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:
将与所述录音文本对应的语音数据输入预先训练的韵律预测模型,得到对所述语音数据的韵律预测结果;
根据所述韵律预测结果,对所述语音数据进行韵律标注。
9.一种语音生成装置,其特征在于,包括:
信息生成单元,用于根据录音文本以及目标语音情感效果,生成录音情感引导信息;
数据输出单元,用于输出所述录音情感引导信息,以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本;
数据采集单元,用于采集所述目标发音人对所述录音文本的朗读语音,得到与所述录音文本对应的语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210867412.X/1.html,转载请声明来源钻瓜专利网。





