[发明专利]一种具备情感的中文文本人声合成方法有效
申请号: | 201711407738.X | 申请日: | 2017-12-22 |
公开(公告)号: | CN108364632B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 沈傲东;俞豪敏;孔佑勇;吴剑锋;董涵;舒华忠;王坤 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G06F40/289 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具备 情感 中文 文本 人声 合成 方法 | ||
本发明公开一种具备情感的中文文本人声合成方法,主要包括,(1)构建情感语料库;(2)基于波形拼接的带情感语音合成。建立语料库的主要步骤为:(11)分词并获取词语的词性;(12)语音切分,基于语音数据特征与文本语料获取对应分词的音频数据;(13)情感分析,基于文本分词与音频特征获取词语、短句和整句的情感特征值。基于波形拼接的带情感语音合成步骤为:(21)分词和情感分析,对待合成文本进行分词和情感分析,获取待合成文本内的词语词性、句型和情感特征;(32)选取最优语料,基于文本特征值匹配出最优语料集;(23)语音合成,波形拼接,从语料集中提取出词语音频序列集,将音频拼接合成输出最终语音。本发明合成输出具有情感特征的真人声语音。
技术领域
本发明涉及语音合成技术,具体涉及一种具备情感的中文文本人声合成方法。
背景技术
随着智能手机的普及,语音合成引擎也发展地非常迅速,目前国内的市场上已经有不少成熟的汉语语音合成应用,但是由于汉语是一种存在语调的声调语言,它的语调是由多重因素造成的,包括句型、词性、表达的情感等等,它不同于纯语调语言的语调,因此在处理汉语语调时就存在着诸多的问题,这也直接导致了目前的汉语语音合成引擎得到的语音结果都较为僵硬、不自然,和汉语母语者说话的结果存在较大的差异。因此在人机交互过程中机器的语音表达显得十分生硬,使得交互过程不能更好地继续。
为了增加互动,获得正向的反馈作用,语音合成技术在情感韵律方面还有待不断的研究和提高。一种具备情感的中文文本人声合成方法可以实现具有情感韵律的语音合成效果。
发明内容
本发明的目的在于解决现有技术中存在的不足,提供一种具备情感的中文文本人声合成方法。
为了实现上述目的,本发明的技术方案如下:一种具备情感的中文文本人声合成方法,所述合成方法包括以下步骤:
(1)构建情感语料库;
(2)基于波形拼接的带情感语音合成。
作为本发明的一种改进,步骤(1)中所述的构建情感语料库具体操作如下:
(11)分词和词性标注,基于已有的隐马尔可夫模型对原始文本进行分词和词性标注,并将分词结果转化为文本形式,在各个词语间加“#”作为分隔符,合并输出为分词文本;
(12)语音采集和自动切分,
(12.1)基于安卓智能设备完成语音采集,具体录音采集参数为:采样率8000Hz,单通道,16位精度;将录音数据保存为WAV格式;
(12.2)根据录音数据内的间歇和频率特征,结合步骤(11)中获取的分词结果,得到各个词语在音频中所对应的起止时刻点;
(12.3)根据音频起讫时刻序列,切割出对应词语的音频,保存为PCM格式音频,构建分词-音频的对应关系;
(13)情感分析,将原始文本进行分句,对各个语句进行情感的分析判别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,基于语句的情感特征值,计算语句中的各个词语的情感特征值;
(14)输入语料库,综合上述步骤获得的分词文本内容、词性、句型、情感特征以及词语音频文件地址,录入语料库中。
作为本发明的一种改进,步骤(2)中所述的基于波形拼接的带情感语音合成,包括如
下步骤:
(21)分词和情感分析,对待合成文本进行分词和情感分析,得到各个词语的词语内容、词性、句型和七种情感特征值;
(22)选取最优语料:
(22.1)从语料库中取出所有该分词tk所对应的音频数据集{pcmk};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711407738.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音合成方法和装置
- 下一篇:文字转语音系统以及文字转语音方法