[发明专利]端到端的汉语韵律层级结构预测模型的构建方法及系统有效

申请号：	201710562102.6	申请日：	2017-07-11
公开（公告）号：	CN107451115B	公开（公告）日：	2020-03-06
发明（设计）人：	陶建华;郑艺斌;温正棋	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/284;G06K9/62;G06N3/04
代理公司：	北京瀚仁知识产权代理事务所(普通合伙) 11482	代理人：	郭文浩;王世超
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	端到端汉语韵律层级结构预测模型构建方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种端到端的汉语韵律层级结构预测模型的构建方法及系统，所述构建方法包括：根据多个裸文本得到字嵌入embedding层的字向量序列；基于长短时间记忆BLSTM神经网络和条件随机场CRF分类器，根据所述字向量序列，构建汉语韵律层级结构的预测模型，用于预测待处理文本的汉语韵律层级结构。本发明端到端的汉语韵律层级结构预测模型的构建方法及系统将字embedding层、BLSTM神经网络及CRF分类器串联在一起，根据字embedding层的字向量序列，基于BLSTM神经网络及CRF分类器得到汉语韵律层级结构的预测模型，实现对待处理文本的准确预测。

技术领域

本发明涉及人机交互总语音合成技术领域，更具体地，涉及一种端到端的汉语韵律层级结构预测模型的构建方法及系统。

背景技术

准确的韵律层级描述及从文本信息中预测韵律层级结构一直是语音合成中至关重要的一步，是提高合成语音自然度和表现力、构建和谐人机交互技术的重要组成部分。韵律结构模型能够刻画出语音中的抑扬顿挫与轻重缓急，进而提高合成语音的表现力和自然度。韵律结构建模与预测对语音合成、人机交互等的发展具有重要意义。

虽然，在这个领域已经有很多的研究工作，但是韵律结构和重音建模与预测还有很多问题至今没有很好的解决。

主要表现在以下几点：

1、现有的汉语韵律层级结构预测都是一个两阶段的过程。第一阶段是文本的特征提取，包括词性，词在句中的位置，词向量等特征参数的提取。第二阶段则是利用提取得到的文本参数信息，利用统计机器学习的方法建立起文本参数到韵律结构之间的映射关系。这种两阶段的建模方法不仅严重依赖于文本特征提取的精度(文本参数预测的误差会累积到第二阶段的建模上)，而且文本特征提取需要很多的人为标注工作。

2、现有的汉语韵律预测方法大多都以词作为基本的建模单元。这其中，又需要经过分词这一过程，这又使得分词的误差会进一步累积到最后韵律层级结构的建模中。

3、现有的单一模型预测的准确度普遍达不到一个理想的状态，因此语音合成的自然度也大大受损，进而影响人们的听感。

发明内容

为了解决现有技术中的上述问题，即为了解决准确预测汉语韵律层级结构，本发明提供了一种端到端的汉语韵律层级结构预测模型的构建方法及系统。

为实现上述目的，本发明提供了如下方案：

一种端到端的汉语韵律层级结构预测模型的构建方法，所述构建方法包括：

根据多个裸文本得到字嵌入embedding层的字向量序列；

基于长短时间记忆BLSTM神经网络和条件随机场CRF分类器，根据所述字向量序列，构建汉语韵律层级结构的预测模型，用于预测待处理文本的汉语韵律层级结构。

可选的，所述根据多个裸文本得到字embedding层的字向量序列，具体包括：

根据各裸文本建立以字为单位的字典；

基于连续词袋模型CBOW，利用文本语料对所述字典进行训练得到字embedding层的字向量序列。

可选的，所述根据各裸文本建立以字为单位的字典，具体包括：