[发明专利]语音合成方法、电子设备和存储介质在审
| 申请号: | 202211228032.8 | 申请日: | 2022-10-09 |
| 公开(公告)号: | CN115578998A | 公开(公告)日: | 2023-01-06 |
| 发明(设计)人: | 杨喜鹏;冯小琴;陈云琳;叶顺平 | 申请(专利权)人: | 出门问问创新科技有限公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G06F18/25;G06N3/0464;G06N3/08 |
| 代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋;柳倩 |
| 地址: | 210038 江苏省南京市栖*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 合成 方法 电子设备 存储 介质 | ||
本发明实施例公开了一种语音合成方法、电子设备和存储介质,通过预先将N种情感语音数据的声学特征经由参考编码模块得到的N种情感嵌入向量和与其相对应的N种情感类别标识存入预先训练完成的声学模型中,在推理阶段将目标文本标签信息及与其对应的目标情感参数一并输入至声学模型,查找到与目标情感参数相匹配的目标情感嵌入向量,并将其与经由文本编码模块获取的目标文本嵌入向量进行融合,然后将融合所得向量经由文本解码模块得到目标声学特征向量,目标声学特征向量再经由预先训练完成的神经网络声码器最后得到目标音频信息,由此,解决了传统情感语音合成中对情感无法灵活精确地进行显式控制和合成的语音自然度低且情感表现力不足的问题。
技术领域
本发明涉及语音合成技术领域,尤指一种语音合成方法、电子设备和存储介质。
背景技术
随着移动设备的普及,使用语音的人机交互场景变得越来越常见,语音合成(Text-To-Speech,简称TTS),正是随着人们对人机交互提出要求而发展起来的一种语音信号处理技术,它又被称为文语转换技术,是将计算机自己产生的或人为输入的一些非语音信息如文字、数字等信息转变为可以听得懂的、流利的人类语音输出的一种技术,被广泛地应用在不同的人机交互场景中,例如:智能客服、智能家居中的语音助手、可以服务听障人士的无障碍播报,甚至新闻播报和有声朗读等。
一般来说,语音合成的数据我们更多的是考虑追求平稳,因此在情感表达方面也就不会太丰富。但在一些应用如有声阅读中,用户除了要求合成的音频可懂、流畅以及自然外,还对合成音频所带的情感(例如:喜、怒、哀、乐等)提出更高的要求,对情感语音合成的兴趣与需求也越来越高。试想一下,假如我们在和机器交流时能够像和一个真正的人交谈一样,它可以用平淡的声音、高兴的声音、悲伤的声音,甚至不同的情感有不同的强度,这也正是情感语音合成需要实现的。
情感语音合成包括单一发言人的情感语音合成与多发言人的情感语音合成。其中,在单一发言人的情感语音合成中,现有技术的大多数情感语音合成系统存在如下两种解决方案:
第一种是基于全局风格标签(Global Style Token,GST)的风格迁移方案。GST是一种控制语音风格的无监督学习方法,该方案通过注入学习的情感嵌入(emotionembedding)引入端到端情感语音合成器,并通过训练的全局风格标记(global styletokens,简称“GST”)来表示不同的情感。此种方案风格种类需要依靠参考编码器来学习,无法固定风格,虽然可控,但效果稳定性差。
第二种是基于信号处理的情感控制方案。该方案虽然可以显式的控制语音合成情感中的时长和基频信息,但是生成的音频效果机械感比较强,不自然。
基于如上问题,目前亟待提出一种情感语音合成中可以灵活、精确地对语音的情感进行显式控制的方法,使所合成的带有情感的语音的自然度高且情感表现力强,解决传统情感语音合成中对情感无法灵活精确地进行显式控制和合成的语音自然度低且情感表现力不足的问题。
发明内容
有鉴于此,本发明实施例提供一种语音合成方法、电子设备和存储介质,通过预先将N种情感语音数据的声学特征经由参考编码模块得到的N种情感嵌入向量和与其相对应的N种情感类别标识存入预先训练完成的声学模型中,在推理阶段将目标文本标签信息及与其对应的目标情感参数一并输入至声学模型,查找到与目标情感参数相匹配的目标情感嵌入向量,并将其与经由文本编码模块获取的目标文本嵌入向量进行融合,然后将融合所得向量经由文本解码模块得到目标声学特征向量,目标声学特征向量再经由预先训练完成的神经网络声码器最后得到目标音频信息,由此,所合成的目标音频信息中包含了所设定的目标情感,从而实现了灵活、精确地对语音的情感进行显式控制的技术目的,并使所合成的带有情感的语音的自然度高且情感表现力强,有效地解决了传统情感语音合成中对情感无法灵活精确地进行显式控制和合成的语音自然度低且情感表现力不足的问题。
第一方面,本发明实施例提供了一种语音合成方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问创新科技有限公司,未经出门问问创新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211228032.8/2.html,转载请声明来源钻瓜专利网。





