[发明专利]一种语音合成方法、装置、电子设备及存储介质在审

申请号：	202110251885.2	申请日：	2021-03-08
公开（公告）号：	CN113096640A	公开（公告）日：	2021-07-09
发明（设计）人：	彭话易;黄旭为;张国鑫	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/10;G06F16/33;G06F16/36
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫;贾允
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种语音合成方法、装置、电子设备及存储介质，该方法包括：获取待合成文本；根据待合成文本的音素序列，确定待合成文本的文本特征；根据输入的情感标签和情感强度值，确定待合成文本的情感特征；融合所述文本特征和所述情感特征，得到待合成文本对应的情感文本特征；根据所述情感文本特征确定所述待合成文本对应的声学特征；根据待合成文本对应的声学特征合成目标情感语音。本公开中合成语音的情感表现力与输入的情感标签和情感强度值相关联，输入不同的情感标签可以得到不同情感类别的合成语音，输入不同的情感强度值可以得到同一情感类别下不同情感强度的合成语音，在提升合成语音情感表现力同时还可控制合成语音的情感强度。

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断发展，人机交互即虚拟人与人类之间通过自然语言进行交互已经变的不可或缺，通过语音合成技术将自然语言转换为语音是实现人机交互中的重要一环。语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的或者外部输入的文字信息转变为人类可以听得懂的、流利的口语输出的技术。

相关技术中，通过将深度学习技术应用于语音合成虽然合成出的语音达到了“能够听清，能够听懂”的程度，但其情感表现力不够理想，情感表现单一且情感强度无法控制，无法满足对于合成语音的“高拟人，高逼真，高情感表现力”的要求。

发明内容

本公开提供一种语音合成方法、装置、电子设备及存储介质，以至少解决相关技术中合成语音的情感表现力不够理想，情感表现单一且情感强度无法控制的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音合成方法，包括：

获取待合成文本；

根据所述待合成文本的音素序列，确定所述待合成文本的文本特征；

根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征；

融合所述文本特征和所述情感特征，得到所述待合成文本对应的情感文本特征；