[发明专利]语音合成方法、装置、设备和介质有效
申请号: | 202010544845.2 | 申请日: | 2020-06-15 |
公开(公告)号: | CN111667811B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 崔璐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/63;G10L25/51;G06F40/30;G06F40/295 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 介质 | ||
本申请实施例公开了一种语音合成方法、装置、设备和介质,涉及语音技术、自然语言处理技术和深度学习技术。其中,该语音合成方法包括:获取目标对白语句,并确定目标对白语句涉及的目标人物角色;基于目标对白语句,确定目标人物角色的描述信息;其中,描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种;利用目标对白语句和目标人物角色的描述信息,确定目标人物角色的角色情感;如果满足语音合成触发条件,则依据目标人物角色和目标人物角色的角色情感,对目标对白语句进行语音合成。本申请实施例可以提高语音播报的角色代入感、画面感。
技术领域
本申请实施例涉及计算机技术,具体涉及语音技术、自然语言处理技术和深度学习技术,尤其涉及一种语音合成方法、装置、设备和介质。
背景技术
语音合成技术的发展,不经为人们日常生活带来极大的便利性,例如支持语音交互的智能家电被普遍推广,同时,也改变了人们观看电子书的方式。越来越多的电子书产品支持文本的语音播报,听书成为人们利用碎片时间看书的一种新方式。
然而,目前大多数电子书的语音播报,播报语音较为单一,且语音的情感表现力不足,不能为听众从视觉上带来角色画面感,也无法引起听众对角色的代入感。
发明内容
本申请实施例提供了一种语音合成方法、装置、设备和介质,以提高语音播报的角色代入感、画面感。
根据本申请实施例的一方面,提供了一种语音合成方法,包括:
获取目标对白语句,并确定所述目标对白语句涉及的目标人物角色;
基于所述目标对白语句,确定所述目标人物角色的描述信息;其中,所述描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种;
利用所述目标对白语句和所述目标人物角色的描述信息,确定所述目标人物角色的角色情感;
如果满足语音合成触发条件,则依据所述目标人物角色和所述目标人物角色的角色情感,对所述目标对白语句进行语音合成。
根据本申请实施例的另一方面,提供了一种语音合成装置,包括:
角色确定模块,用于获取目标对白语句,并确定所述目标对白语句涉及的目标人物角色;
描述信息确定模块,用于基于所述目标对白语句,确定所述目标人物角色的描述信息;其中,所述描述信息包括人设标签、角色关系、角色身份和对话场景中的至少一种;
角色情感确定模块,用于利用所述目标对白语句和所述目标人物角色的描述信息,确定所述目标人物角色的角色情感;
语音合成模块,用于如果满足语音合成触发条件,则依据所述目标人物角色和所述目标人物角色的角色情感,对所述目标对白语句进行语音合成。
根据本申请实施例的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例任一所述的语音合成方法。
根据本申请实施例的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例任一所述的语音合成方法。
根据本申请实施例的技术方案,通过确定对白语句涉及人物角色以及人物角色的描述信息,根据对白语句以及人物角色的描述信息综合确定人物角色的角色情感,用于合成富有情感的角色化对白语音,提高了语音播报的角色代入感、画面感。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010544845.2/2.html,转载请声明来源钻瓜专利网。