[发明专利]基于韵律短语的韵律结构生成方法有效
申请号: | 200910091510.3 | 申请日: | 2009-08-26 |
公开(公告)号: | CN101650942A | 公开(公告)日: | 2010-02-17 |
发明(设计)人: | 董远;周涛 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G06N1/00;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 韵律 短语 结构 生成 方法 | ||
1.一种用于生成中文韵律结构边界的方法,对已经过分词和词性标注的真实文本,给出其韵 律短语边界与韵律词边界,以提高语音合成的自然度,该方法包括:
步骤一,韵律短语边界识别;
步骤二,韵律词边界识别;
步骤三,分层韵律结构生成;
其中,所述步骤一具体包括下述步骤:
步骤1,在韵律短语边界预测中,每一个分词边界都被认为是一个潜在的韵律短语边界;
在给出分词边界的上下文信息的前提下,利用最大熵模型计算出该边界作为韵律短语边界 的概率;如果概率达到一定值,则该边界被认为是一个韵律短语边界;同时通过分析语料中各 种句子的韵律短语结构,结合最大熵算法的特点,为韵律短语(PP)设计含韵律短语边界信息 量最大的特征,并对各种特征进行拓展与组合,设计对韵律短语最具决定性的特征模版,用 于建立韵律短语的最大熵模型,并用于韵律短语边界的预测;
步骤2,通过分析最大熵模型在预测韵律短语边界中的一些错误和不足,采用一种半自 动的特征选择方法;并对各种特征进行拓展与组合,运用错误驱动的规则学习方法生成一定数 量的最优规则,进一步提高韵律短语边界预测的准确率;
步骤2中所述的半自动的特征选择方法具体包括:
①手动设计一个特征模板,并在上面定义所有的候选模板,然后每次选择其中的 一个或者几个特征进行实验,选取其中效果最明显的,即包含韵律边界信息量 最大的特征;
其中,①所述的特征模板设计是为了获取尽可能多的非标准词信息,针对具体的应用, 本发明设计的特征分为公有特征和私有特征;公有特征是指对于韵律短语和韵律词建模 都适用的特征,而私有特征则是分别为韵律短语和韵律词所设计的;
②针对Word和POS这两个特征进行拓展,以得到一些新的特征类型,这两个特 征类型设计的拓展窗口长度都为2,Word表示语法词特征,POS表征语法词的 词性标注特征;
③组合2种不同类别的特征以得到新的特征类型;
④一共为韵律短语的最大熵模型训练设计了36个特征,并利用以上特征对韵律短 语类型进行最大熵建模以用于韵律短语边界生成;
步骤3,由于韵律结构中的一些固定模式,部分韵律短语边界的判断存在着一些明显的 错误,所以在利用最大熵模型进行韵律短语边界的判定后,加入错误驱动的规则学习模块, 针对实际语料,分析其中的文本特征和韵律结构,归纳最大熵模型未能处理的和处理错误的 一些情况,构造韵律短语边界判定的最优规则,通过规则对一些错误进行纠正,进一步提高 韵律短语边界预测的准确性;
步骤3中所述的错误驱动的规则学习模块具体包括:首先对相关语料做预处理,提取出 带有韵律短语信息的特征,然后对这些特征的分析,设计一系列相应的规则模板;并对不同 的特征,用相应的模板进行规则学习以得出一系列规则,然后取适当的测试集,对训练得到 的这些规则进行测试,从中提取出符合要求数量的最优规则;
其中,错误驱动的规则学习模块中的特征设计具体还包括:采用与上述步骤2中最大熵 模型训练相同的特征,同时考虑到这些特征在实际应用中对韵律短语边界识别的重要性的不 同,同时也为了提高规则对韵律短语边界的实际识别能力,在这些特征的基础上,对特征进 行适当拓展,设计并选取了其中30种含信息量最大的的特征模板;
其中,每一个步骤3所述的规则都是由2-3个特征组合而成,并且都具有相同的格式;
步骤二所述韵律词边界识别的步骤包括下述步骤:
步骤1,通过分析语料中各种句子的韵律词结构,结合最大熵算法的特点,同时结合步 骤一已经得到韵律短语边界信息,为韵律词(PW)设计含韵律词边界信息量最大的特征,并对 各种特征进行拓展与组合,设计对韵律词最具决定性的特征模版,用于建立韵律词的最大熵 模型,并用于韵律词边界的预测;
步骤2,通过分析最大熵模型在预测韵律词边界中的一些错误和不足,有针对性地设计 特征,并对各种特征进行拓展与组合,运用错误驱动的规则学习方法生成一定数量的最优规 则,进一步提高韵律词边界预测的准确率;
步骤三具体包括:设计一一对应的规则对前述步骤一、二的判断结果进行修正;这些规 则都是按照“条件-结果”的结构设计的,规则中的条件与经过前述步骤一、二判断得到的韵 律边界情况进行比较,这里的韵律边界包括韵律短语边界,韵律词边界和语法词边界;如果 “条件”相同而“结果”不相同,则按照规则中设计的结果进行修正,通过一系列规则对韵 律短语边界和韵律词边界进行修正,生成分层韵律结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091510.3/1.html,转载请声明来源钻瓜专利网。