[发明专利]一种在训练数据量极少条件下的实时语音转换方法无效
申请号: | 200910263101.7 | 申请日: | 2009-12-16 |
公开(公告)号: | CN101751921A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 徐宁;杨震 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 奚幼坚 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 数据量 条件下 实时 语音 转换 方法 | ||
技术领域
本发明涉及语音转换技术(Voice conversion,VC),尤其涉及一种在训练数据量极少条件下的实时语音转换方法,是用于文语转换系统和机器人发声系统的基于统计分析模型的语音转换方案,属于信号处理特别是语音信号处理技术领域。
背景技术
本专利所涉及的知识领域被称为语音转换技术,是语音信号处理领域近年来新兴的研究分支,涵盖了说话人识别和语音合成的核心技术,并使之结合到一起以达到统一的目标,即:在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人,Sourcespeaker)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人,Target speaker)说的话。简而言之,语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。
经过多年的发展,语音转换领域虽然已经涌现出大量的算法,但是这些算法都只是在实验室环境下才能运行的,即需要充足的训练数据。但是现实情况往往比较“残酷”,特别是目标说话人的语音数据常常难以收集,或者只能采集到一小部分,例如几秒钟。在这种恶劣的环境下,如果直接套用传统的语音转换算法,就会导致系统不稳定或者崩溃。之所以会产生这样的问题,原因不外乎以下两点:①在训练数据量较少,待估计的模型参数较多的情况下,系统形成了一种所谓的“欠学习”的情况,即估计得到的模型对数据“拟合”的不理想,或者虽然对这部分数据“拟合”的比较理想,但是对其他数据的“预测”性能却不佳。这种现象也常常被称为“模型的过拟合”(Over-fitting)问题。②传统的最常用的估计模型参数的方法是最大似然估计(Maximum Likelihood,ML)和最大后验概率估计(Maximum a Posterior,MAP)。但遗憾的是,这两种方法都是“点估计”方法,即它们选取的最优参数往往是使似然函数或后验概率函数取局部最大值的那个值。如果训练数据量较多,尚有一定的普适性,但在数据量较少的情况下,以上两种方法选取的最优点常常不具有代表性,即它们只能代表这些已有的一小部分数据的最优,而不能代表其他众多数据的最优值。
一般来说,语音转换系统的核心步骤之一是对采集的数据进行统计建模,即用统计概率模型(Statistical Model)来拟合数据的概率分布,进而得到与之有关的信息,方便后续步骤加以利用。在这个过程中,如何利用已有数据来“学习”或“预测”模型的参数就成为了最为关键的问题。期望最大化算法(Expectation Maximization,EM)被公认为一种学习统计模型参数的优秀算法,因此被广泛采用。但是由于它是一种局部优化算法,因此往往会使结果陷入局部最小值的误区,特别是在训练数据量较少的情况下,这个问题更为明显,这种现象亦被称为“模型的过拟合”问题(Over-fitting)。考虑到在现实的环境下,我们收集到的语音数据往往是稀疏的,即数据量较少,因此经典的EM算法肯定是不适用的。
目前国际、国内尚未出现研究如何在训练数据稀少情况下进行语音转换的课题,发明内容在该领域尚属首创。
发明内容
针对现有技术之不足,本发明提出了一种在训练数据量极少条件下的实时语音转换方法,该方法在采集到的语音数据(训练数据)数量特别少的恶劣情况下,能保证语音转换系统的正常运行。
本发明的技术方案是:一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐后的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910263101.7/2.html,转载请声明来源钻瓜专利网。