[发明专利]一种语音合成方法、装置、电子设备及存储介质在审
申请号: | 202110251885.2 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113096640A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 彭话易;黄旭为;张国鑫 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/10;G06F16/33;G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 电子设备 存储 介质 | ||
本公开关于一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取待合成文本;根据待合成文本的音素序列,确定待合成文本的文本特征;根据输入的情感标签和情感强度值,确定待合成文本的情感特征;融合所述文本特征和所述情感特征,得到待合成文本对应的情感文本特征;根据所述情感文本特征确定所述待合成文本对应的声学特征;根据待合成文本对应的声学特征合成目标情感语音。本公开中合成语音的情感表现力与输入的情感标签和情感强度值相关联,输入不同的情感标签可以得到不同情感类别的合成语音,输入不同的情感强度值可以得到同一情感类别下不同情感强度的合成语音,在提升合成语音情感表现力同时还可控制合成语音的情感强度。
技术领域
本公开涉及计算机技术领域,尤其涉及一种语音合成方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的不断发展,人机交互即虚拟人与人类之间通过自然语言进行交互已经变的不可或缺,通过语音合成技术将自然语言转换为语音是实现人机交互中的重要一环。语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的或者外部输入的文字信息转变为人类可以听得懂的、流利的口语输出的技术。
相关技术中,通过将深度学习技术应用于语音合成虽然合成出的语音达到了“能够听清,能够听懂”的程度,但其情感表现力不够理想,情感表现单一且情感强度无法控制,无法满足对于合成语音的“高拟人,高逼真,高情感表现力”的要求。
发明内容
本公开提供一种语音合成方法、装置、电子设备及存储介质,以至少解决相关技术中合成语音的情感表现力不够理想,情感表现单一且情感强度无法控制的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种语音合成方法,包括:
获取待合成文本;
根据所述待合成文本的音素序列,确定所述待合成文本的文本特征;
根据输入的情感标签和情感强度值,确定所述待合成文本的情感特征;
融合所述文本特征和所述情感特征,得到所述待合成文本对应的情感文本特征;
根据所述情感文本特征,确定所述待合成文本对应的声学特征;
根据所述待合成文本对应的声学特征合成目标情感语音。
作为一个可能的实施方式,所述根据输入的情感标签和情感强度值,确定所述待合成文本的情感特征,包括:
确定输入的情感标签对应的独热编码向量;
根据所述独热编码向量和预设的情感词典,得到所述情感标签对应的情感编码信息;
根据所述情感编码信息和输入的情感强度值,得到所述待合成文本的情感特征。
作为一个可能的实施方式,所述根据所述情感文本特征,确定所述待合成文本对应的声学特征,包括:
将所述情感文本特征输入至声学特征模型,得到所述音素序列中各音素的时长特征、基频特征和能量特征;
将所述情感文本特征与所述音素序列中各音素的时长特征、基频特征和能量特征进行融合,得到目标融合文本特征;
根据所述目标融合文本特征,得到所述待合成文本对应的声学特征。
作为一个可能的实施方式,所述将所述情感文本特征输入至声学特征模型,得到所述音素序列中各音素的时长特征,包括:
将所述情感文本特征输入至声学特征模型的时长预测网络,得到所述音素序列中各音素的预测时长特征;
获取输入的时长调整系数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251885.2/2.html,转载请声明来源钻瓜专利网。