[发明专利]语音合成方法、装置及电子设备有效
申请号: | 201910879666.1 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110600002B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 杜慷;冯大航;陈孝良;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/08;G10L25/63 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 陈龙 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 电子设备 | ||
1.一种语音合成方法,其特征在于,包括:
获取目标对象针对第一合成语音的反馈数据;
利用情绪识别模型对所述反馈数据进行情绪识别,以判断所述目标对象是否存在针对所述第一合成语音的异常情绪;所述利用情绪识别模型对所述反馈数据进行情绪识别,包括:将包含用户声音的反馈数据输入到所述情绪识别模型中;利用所述情绪识别模型中的分类器对所述反馈数据进行分类处理;基于所述分类处理的结果,对目标对象是否存在异常情绪进行判断;
当所述目标对象存在针对所述第一合成语音的异常情绪时,利用纠错模块对所述第一合成语音进行纠错处理,以得到第二合成语音;
向所述目标对象播放所述第二合成语音。
2.根据权利要求1所述的方法,其特征在于,所述获取目标对象针对第一合成语音的反馈数据,包括:
在播放完所述第一合成语音之后,采集目标对象针对所述第一合成语音的响应语音;
基于所述响应语音,形成针对第一合成语音的反馈数据。
3.根据权利要求2所述的方法,其特征在于:
所述反馈数据中包括针对所述第一合成语音的反馈语义,基于所述反馈语义能够对所述第一合成语音执行纠错操作。
4.根据权利要求1所述的方法,其特征在于,所述利用纠错模块对所述第一合成语音进行纠错处理,包括:
获取所述第一合成语音对应的输入文本;
对所述输入文本进行分词处理,得到分词集合;
将分词集合输入n-gram语言模型,得到每个字/词的概率;
基于每个字/词的概率,确定所述第一合成语音对应的输入文本的流畅度;
当所述流畅度低于预设阈值时,对所述第一合成语音对应的输入文本进行纠错处理。
5.根据权利要求4所述的方法,其特征在于,所述当所述流畅度低于预设阈值时,对所述第一合成语音对应的输入文本进行纠错处理,包括:
利用已训练充分的双向GRU将文本序列信息嵌入到特征向量中;
对分词后的字/词预测输出向量,基于所述输出向量,对经过语言模型后的字/词特征概率进行二分类,以便于基于二分类的结果对错误的字/词进行标注。
6.根据权利要求5所述的方法,其特征在于,所述当所述流畅度低于预设阈值时,对所述第一合成语音对应的输入文本进行纠错处理,还包括:
获取待纠错字/词以及词表搭配的拼音;
根据错误字/词的索引信息获取错误字/词的前一个词,并查询搭配表得到备选词集,所述备选词集中包含空值的备选词;
对错误字/词的拼音和备选词集合中的每个字/词的拼音求最长公共字串和编辑距离的加权分数,并设定相应阈值,选出超过阈值的前几个字/词进行备选;
基于选出的备选字/词,对所述第一合成语音对应的输入文本进行纠错处理。
7.根据权利要求6所述的方法,其特征在于,所述基于选出的备选字/词,对所述第一合成语音对应的输入文本进行纠错处理,包括:
将备选字/词和原错误字/词一起输入到n-gram模型中,分别检测各个新句子的流畅度,计算得分并进行比较,选取最终分数最高的备选字/词作为该位置的输出字/词。
8.根据权利要求7所述的方法,其特征在于,所述基于选出的备选字/词,对所述第一合成语音对应的输入文本进行纠错处理,还包括:
从第一合成语音中去除错误字/词所在音段;
使用基于数据库的音频拼接合成方法对最终分数最高的备选字/词音频进行插入处理;
对插入后的第一合成语音执行合并处理。
9.根据权利要求1所述的方法,其特征在于,所述获取目标对象针对第一合成语音的反馈数据之前,所述方法还包括:
利用端对端TTS模型及输入文本,生成所述第一合成语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910879666.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音的生成方法和装置
- 下一篇:机器人的语音输出方法、装置、机器人和存储介质