[发明专利]语音合成方法、装置及电子设备有效

申请号：	201910879666.1	申请日：	2019-09-18
公开（公告）号：	CN110600002B	公开（公告）日：	2022-04-22
发明（设计）人：	杜慷;冯大航;陈孝良;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/08;G10L25/63
代理公司：	北京竹辰知识产权代理事务所(普通合伙) 11706	代理人：	陈龙
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例中提供了一种语音合成方法、装置及电子设备，属于数据处理技术领域，该方法包括：获取目标对象针对第一合成语音的反馈数据；利用情绪识别模型对所述反馈数据进行情绪识别，以判断所述目标对象是否存在针对所述第一合成语音的异常情绪；当所述目标对象存在针对所述第一合成语音的异常情绪时，利用纠错模块对所述第一合成语音进行纠错处理，以得到第二合成语音；向所述目标对象播放所述第二合成语音。本公开的方案能够提高语音合成的准确性。

技术领域

本公开涉及数据处理技术领域，尤其涉及一种语音合成方法、装置及电子设备。

背景技术

语音合成的发展历程主要分为三个阶段，分别为波形拼接法、参数合成法和端到端语音合成法。波形拼接合成法，根据需求在语音数据库中寻找相应的发音段，使用恰当的技术手段将所需的语音单元从语音库中查找出来，依次对整句文本进行音频拼接和调整，从而得到目标音频，该方法通过利用增强语音数据库、改进单元挑选策略、与统计方法结合等手段，使得合成的音频有很高的自然度，但同时该方法的缺点也非常明显，即需要建立一个几乎覆盖所有字词的完备语音数据库，这使得该方法的效率十分低下，无法进行实时合成。

接着出现了基于统计建模的参数合成法，参数合成法将TTS的整个过程分为了几个阶段，分别统计语音的韵律、时长等信息，然后在声学模型中进行合成。这种模型的优点是仅需要保存相关参数，不需要大量数据库，能够保证实时性；并且能够人为改善合成过程中出现的问题，如基频、基频波动范围、语速甚至音色等。这种模型的缺点是整体模型过于复杂需要分别维护多个模型，除了一般必须的参数合成模型外，针对特定问题如多音字、儿化音等问题，还需要再增加特定模型才能合成优秀的音色，这使得整体模型规模庞大，不易维护，各个模块组合在一起也会产生新的问题。一旦一个模型出现问题，可能所有模型都要更改，容易造成错误累积；同时难以复现声音细节，对齐问题需要人为矫正，机械感严重。

针对参数法的各项问题，基于端到端模型的TTS合成法成为新的主流合成方法。这种方法摒弃了参数合成中的多个复杂模块结合的方法，直接从文本生成音频。这种端到端的方式，减少了特征工程，只需要输入文本，其他的特征模型均可以通过端到端模型隐式建模。避免了多个子模型的误差传递和积累，各种条件添加方便，如语种、说话人、情感信息等。同时这种模型生成的语音细节丰富，能够大幅度还原人声。但是TTS模型性能不稳定，TTS模型经常会出现错字和多字的情况，如多音字读错的问题等。

发明内容

有鉴于此，本公开实施例提供一种语音合成方法、装置及电子设备，至少部分解决现有技术中存在的问题。

第一方面，本公开实施例提供了一种语音合成方法，包括：

获取目标对象针对第一合成语音的反馈数据；

利用情绪识别模型对所述反馈数据进行情绪识别，以判断所述目标对象是否存在针对所述第一合成语音的异常情绪；

当所述目标对象存在针对所述第一合成语音的异常情绪时，利用纠错模块对所述第一合成语音进行纠错处理，以得到第二合成语音；

向所述目标对象播放所述第二合成语音。

根据本公开实施例的一种具体实现方式，所述获取目标对象针对第一合成语音的反馈数据，包括：

在播放完所述第一合成语音之后，采集目标对象针对所述第一合成语音的响应语音；

基于所述响应语音，形成针对第一合成语音的反馈数据。

根据本公开实施例的一种具体实现方式，所述反馈数据中包括针对所述第一合成语音的反馈语义，基于所述反馈语义能够对所述第一合成语音执行纠错操作。

根据本公开实施例的一种具体实现方式，所述利用情绪识别模型对所述反馈数据进行情绪识别，包括：