[发明专利]一种具备情感的中文文本人声合成方法有效

申请号：	201711407738.X	申请日：	2017-12-22
公开（公告）号：	CN108364632B	公开（公告）日：	2021-09-10
发明（设计）人：	沈傲东;俞豪敏;孔佑勇;吴剑锋;董涵;舒华忠;王坤	申请（专利权）人：	东南大学
主分类号：	G10L13/02	分类号：	G10L13/02;G06F40/289
代理公司：	南京众联专利代理有限公司 32206	代理人：	杜静静
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具备情感中文文本人声合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种具备情感的中文文本人声合成方法，主要包括，(1)构建情感语料库；(2)基于波形拼接的带情感语音合成。建立语料库的主要步骤为：(11)分词并获取词语的词性；(12)语音切分，基于语音数据特征与文本语料获取对应分词的音频数据；(13)情感分析，基于文本分词与音频特征获取词语、短句和整句的情感特征值。基于波形拼接的带情感语音合成步骤为：(21)分词和情感分析，对待合成文本进行分词和情感分析，获取待合成文本内的词语词性、句型和情感特征；(32)选取最优语料，基于文本特征值匹配出最优语料集；(23)语音合成，波形拼接，从语料集中提取出词语音频序列集，将音频拼接合成输出最终语音。本发明合成输出具有情感特征的真人声语音。

技术领域

本发明涉及语音合成技术，具体涉及一种具备情感的中文文本人声合成方法。

背景技术

随着智能手机的普及，语音合成引擎也发展地非常迅速，目前国内的市场上已经有不少成熟的汉语语音合成应用，但是由于汉语是一种存在语调的声调语言，它的语调是由多重因素造成的，包括句型、词性、表达的情感等等，它不同于纯语调语言的语调，因此在处理汉语语调时就存在着诸多的问题，这也直接导致了目前的汉语语音合成引擎得到的语音结果都较为僵硬、不自然，和汉语母语者说话的结果存在较大的差异。因此在人机交互过程中机器的语音表达显得十分生硬，使得交互过程不能更好地继续。

为了增加互动，获得正向的反馈作用，语音合成技术在情感韵律方面还有待不断的研究和提高。一种具备情感的中文文本人声合成方法可以实现具有情感韵律的语音合成效果。

发明内容

本发明的目的在于解决现有技术中存在的不足，提供一种具备情感的中文文本人声合成方法。

为了实现上述目的，本发明的技术方案如下：一种具备情感的中文文本人声合成方法，所述合成方法包括以下步骤：

(1)构建情感语料库；

(2)基于波形拼接的带情感语音合成。

作为本发明的一种改进，步骤(1)中所述的构建情感语料库具体操作如下：

(11)分词和词性标注，基于已有的隐马尔可夫模型对原始文本进行分词和词性标注，并将分词结果转化为文本形式，在各个词语间加“#”作为分隔符，合并输出为分词文本；

(12)语音采集和自动切分，

(12.1)基于安卓智能设备完成语音采集，具体录音采集参数为：采样率8000Hz，单通道，16位精度；将录音数据保存为WAV格式；

(12.2)根据录音数据内的间歇和频率特征，结合步骤(11)中获取的分词结果，得到各个词语在音频中所对应的起止时刻点；

(12.3)根据音频起讫时刻序列，切割出对应词语的音频，保存为PCM格式音频，构建分词-音频的对应关系；