[发明专利]一种在训练数据量极少条件下的实时语音转换方法无效
申请号: | 200910263101.7 | 申请日: | 2009-12-16 |
公开(公告)号: | CN101751921A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 徐宁;杨震 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L15/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 奚幼坚 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种在训练数据量极少条件下的实时语音转换方法,利用集成学习理论(Ensemble Learning,EL)对采集到的数据进行高斯混合模型(Gaussian Mixture Model,GMM)的建模,并在均方误差最小(Minimum Mean Square Error,MMSE)的准则下设计映射函数。避免了标准的GMM模型在数据量极少的情况下容易产生过拟合(Over-fitting)的问题,提高了语音转换算法对数据量问题的鲁棒性。同时本发明方法在估算GMM参数的过程中的运算复杂度较标准的GMM低,因此适用于进行实时的语音转换。 | ||
搜索关键词: | 一种 训练 数据量 条件下 实时 语音 转换 方法 | ||
【主权项】:
一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐好的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910263101.7/,转载请声明来源钻瓜专利网。