[发明专利]基于组块分析的韵律短语预测方法有效
申请号: | 200610073102.1 | 申请日: | 2006-04-04 |
公开(公告)号: | CN101051458A | 公开(公告)日: | 2007-10-10 |
发明(设计)人: | 陶建华;董宏辉 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/00 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 周国城 |
地址: | 100080北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分析 韵律 短语 预测 方法 | ||
技术领域
本发明总的来说涉及一种语音合成中韵律短语预测方法,尤指一种利用组块分析结果预测韵律短语的方法。
背景技术
准确地从文本预测韵律短语停顿的位置是语音合成中至关重要的一步,正确的短语边界会使合成出来的语音自然流畅,短语边界还会影响后面的基频曲线和时长等预测模块。虽然,在这个领域已经有很多的研究工作,短语预测还有很多问题至今没有很好的解决。
该领域中,以往的研究已经引入了很多方法。基于对语言学特征的详细分析,利用CART模型预测英语的短语边界,也有很多研究者将该方法引入中文的韵律短语预测。Paul Taylor和Alan W.Black引入HMM作为韵律短语的预测框架。Ostendorf和Veilleux提出了层级统计模型描述韵律结构。几乎所有的人都认为语法约束和韵律短语的长度约束在韵律短语的产生过程中起着最为重要的作用,句法结构制约着韵律结构,韵律单元不应破坏很多句法及语义成分;另外,韵律短语趋于在整句话的节律上达到某种平衡。实际上,很难准确的获得中文的完全句法分析。在过去的研究中,短语的长度信息多被用作一个独立的参数,短语长度之间的关系以及在整个句子中的分配都没有得到很好的描述。因此,针对这些问题,需要一个新的韵律短语预测的模型以提高韵律短语预测的准确性。
发明内容
为了解决韵律短语预测的准确低的技术问题,本发明目的是更新的韵律短语预测的模型以提高韵律短语预测的准确性,提供一种利用组块分析结果进行韵律短语预测的方法,该方法可使合成结果获得较好的自然度。
为了实现上述目的,根据本发明,在该方法中,引入浅层句法分析单元,组块,作为韵律短语预测的主要语言学特征,建立了语言学约束模型,其包括组块合并模型和韵律必停点的预测模型。同时引入n元的方法来描述韵律短语长度分布的关系,建立了节律平衡模型。为了很好的融合组块合并模型和韵律必停点的预测模型这两个模块,我们使用了k候选方法:首先基于语言学约束模型,生成k种可能的韵律短语结构;然后利用短语长度模型从中选择长度分配最优的一组短语结构。
根据本发明提出的基于组块分析的韵律短语预测方法,是将组块作为韵律短语预测的基本单元,包括步骤:
选择合适的组块规范作为韵律短语预测的基本分析单元;
生成训练组块合并模型;
训练生成韵律短语边界必停点的预测模型;
训练生成韵律短语的节律平衡模型;
基于组块合并模型、韵律短语必停点的预测模型、节律平衡约束模型执行生成韵律短语。
根据本发明所述的基于组块分析的韵律短语预测方法,该方法主要训练步骤包括,创建韵律短语标注语料库,利用组块分析器从文本生成组块信息,利用韵律短语语料库估计组块合并模型,利用韵律短语语料库训练支持向量机识别器,得到韵律短语的必停点的预测器,利用韵律短语语料库训练节律平衡模型;
优选地,所述将组块作为韵律短语预测的基本分析单元是生成组块定义信息;生成组块长度信息定义。
优选地,所述生成组块合并模型是训练生成组块在韵律短语中连接的概率;训练生成组块合并概率阈值。
优选地,所述生成韵律短语边界的必停点的预测模型是基于支持向量机识别器的预测模型,生成词性和位置信息特征。
优选地,所述生成节律的平衡模型的步骤包括:在韵律短语语料库中,将各个韵律短语的长度替代各个韵律短语的位置;以韵律短语长度为单位组成的语料,训练生成三元、二元模型。
优选地,所述将组块合并模型,韵律短语必停点的预测模型,长度约束模型执行生成韵律短语的步骤包括:
基于组块支持向量机识别器的识别结果,利用组块合并模型,合并组块,确定韵律的不停顿点及停顿点;
基于韵律停顿点,利用支持向量机识别器确定韵律必停顿的位置;
基于韵律短语的节律平衡模型寻找余下的韵律短语边界。
优选地,所述生成韵律短语是将韵律词边界确定为不停顿点、必须停顿的位置、及余下的可停可不停的位置;将可停可不停的位置置为停或者不停,生成k种可能的停顿方式;从这k种可能的停顿方式中,选出最有可能的停顿方式。
优选地,所述组块定义包括:名词组块,形容词组块,动词组块,介词组块。
优选地,组块规范是选择每个组块的适当长度,组块规范包括每种组块类型的具体定义及如何标注生成语料。选择一个组块长度定义较小的组块规范。
优选地,所述节律平衡模型描述韵律短语长度分布关系,生成k种可能的韵律短语结构;利用所述的短语长度,选择长度分配最优的一组短语结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610073102.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种壳聚糖复配的有机茶叶面肥及其制备方法
- 下一篇:数字式电流综合器