[发明专利]一种基于图到序列的中文韵律边界预测的方法在审
| 申请号: | 202010845400.8 | 申请日: | 2020-08-20 |
| 公开(公告)号: | CN111951781A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 陈帅婷;王龙标;本多清志 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L25/30 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 序列 中文 韵律 边界 预测 方法 | ||
本发明公开一种基于图到序列的中文韵律边界预测的方法,具体步骤包括以下四部分:(1)字嵌入表示特征:将特征转换为数字表示,因此将字映射为实数域向量的技术称之为字嵌入;(2)文本时序特征提取模型:韵律边界的标注为在时间维度上的序列标注;(3)文本空间信息:输入文本序列处理为图形结构,通过添加空间信息来处理韵律边界之间的依赖关系;(4)时空特征结合。将文本的时序信息和空间信结合在一起作为新的特征,增加最后韵律边界得准确率。
技术领域
本发明属于语音合成领域,主要是有关提高语音合成中文本韵律边界预测准确率的技术,为后续的语音合成合成自然语音提供更好的条件。
背景技术
语音合成/(TTS)是一种从文本到语音,旨在使机器产生人造语音的技术。经典的统计参数语音合成(SPSS)系统通常由三个模块组成,包括:前端模块(将文本转换为语言特征)、声学模型(将语言特征映射为声学特征)和声码器(从声学特征生成语音波形)。在过去的几十年里,由于统计参数语音合成人工设计的特性和繁琐的模块间通信,因此在使用过程中十分复杂。但是,近些年来随着深度学习发展,端到端的语音合成用神经网络架构代替传统的模块,简化模型设计同时可以生成清晰度接近人类的发音水平的语音。尽管合成的语音音质很好,但是大量的研究表明,但是,合成的语音还是存在着不自然,过于平缓、简单、呆板的问题。这主要是因为人在自然的讲话中除了发音清晰、准确等方面,语音中韵律节奏可以帮助听者更好地理解说话人所要表达的内容和情感。
在中文的语音合成中,不像英语中相邻的单词是用空格隔开的,中文中的词可以是一个或多个字,相邻的词之间没有明确的分隔符号,因此,我们使用韵律结构来处理语句中的节奏问题。典型的中文语音合成系统中,韵律的结构通常分为三个层次:韵律词(PW)、韵律短语(PP)和语调短语(IP),分别表示词的停顿,语句内的词之间的停顿,短句与短句之间的停顿,停顿的时间依次增加。典型的韵律预测方法有基于规则的模型和统计模型,如条件随机域CRF和RNN。近年来,多任务学习(MTL)结构也被应用于韵律预测中。目前,中文语音合成韵律边界预测的研究中没有将文本中的时域信息和空间信息结合起来。
发明内容
针对语音合成中的韵律边界预测准确率的问题,本发明旨在提高语音合成中韵律预测模块中的韵律边界准确率,提高合成的语音的流畅性和自然度,增加真实性,并力求发掘本身的特性促进语音合成技术的发展。
伴随着神经网络的发展,双向长短时记忆网络和随机条件域的联合应用,在韵律预测中达到了不错的效果。因此本发明提出的基于图到序列的中文韵律边界预测的方法,以Bilstm-CRF为基本框架,使用预训练BERT作为文本嵌入,将双向长短时记忆网络提取时间信息和图结构的表示的空间信息,通过基于图的注意力神经网络进行时空信息融合进行中文韵律边界预测。
本技术的技术方案是:一种基于图到序列的中文韵律边界预测的方法,具体步骤包括以下四部分:
(1)预训练文本嵌入--BERT
目前记录常用汉字3500个左右,但是组成的句子却不计其数,因此在不同的语境下同一个字往往会包含不同的含义,即同字不同义。BERT是最近提出的一种用于一般NLP任务的无监督前训练方法,其本质上是一个语言模型。首先,BERT基于Transformer,因此为处理文本中的长期依赖关系提供了更结构化的内存。其次,作为一个深度双向模型,BERT比从左到右和从右到左的模型连接性更强大,可以将输入的文本表征为含有语境信息的字嵌入;
(2)文本时序特征
语音合成中韵律边界是一种时间序列,其预测离不开上下文的语境信息,因此,使用双向长短时记忆网络提取时序信息。前向的双向长短时记忆网络与后向的双向长短时记忆网络结合成双向长短时记忆网络可以更有效的获取上下文的特征,以此提取输入文本的上下文信息;
(3)文本空间信息
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010845400.8/2.html,转载请声明来源钻瓜专利网。





