[发明专利]基于高斯过程输出后滤波的语音转换方法在审
申请号: | 201611189592.1 | 申请日: | 2016-12-21 |
公开(公告)号: | CN106782599A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 徐宁;鲍静益;姚潇;汤一彬;蒋爱民;刘小峰 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过程 输出 滤波 语音 转换 方法 | ||
技术领域
本发明涉及语音转换技术,属于语音识别与合成领域,特别是一种基于高斯过程输出后滤波的语音转换方法。
背景技术
语音转换技术是语音信号处理领域近年来新兴的研究分支,涵盖了语音识别和语音合成等领域的内容,拟在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。
经过多年的发展,语音转换领域已经涌现出一些高效实用的算法,其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端,例如:由于高斯混合模型自身模型参数的原因,使得转换后的谱参数过于平滑,导致不能准确地得到目标预测参数值,从而不能达到准确的转换效果。
针对上述问题,目前已存在一些应对方案。例如,基于最大后验概率的GMM转换算法,考虑采用最大后验概率自适应地构造转换函数,来解决转换后谱参数过平滑的问题;基于最大似然估计的GMM转换算法,考虑通过引入全局方差的概念解决过平滑问题。
发明内容
本发明要解决的技术问题为:通过高斯过程对源与目标参数进行训练得到映射函数关系,再对高斯过程预测输出值进一步联合优化,得到较为准确的目标预测输出值,实现高质量语音转换。
本发明采取的技术方案具体为:基于高斯过程输出后滤波的语音转换方法,包括以下步骤:
(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;
(2)从上述分析得到的参数中提取与音素相关的特征参数集合;
(3)对原始语音和目标语音的特征参数集合进行参数对齐操作;
(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系;
(5)输入待转换源语音的特征参数,通过步骤(4)得到的映射关系得到目标语音的特征参数预测值;
(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计,并计算目标语音特征参数预测值的方差的高斯分布;
(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化,得到最佳目标语音特征参数预测值,最后用语音合成模型合成目标语音。
本发明中,步骤(1)~(4)为训练阶段,步骤(5)~(7)为转换阶段。高斯过程是一个随机过程,可以完全由两个统计参数确定,结构简单,通过高斯过程得到源与目标参数的映射关系,进而可实现语音转换。基于高斯过程的进行语音转换,一方面,高斯过程的非参数特性减少了模型参数的自由度,另一方面高斯过程具有较好的非线性映射能力,从而可以缓解过拟合的问题,避免转换后的谱参数过于平滑。
具体的,本发明步骤(1)中,采用语音分析模型对原始语音进行的分析包括:
1.1对原始语音进行固定时长的分帧,用自相关法对其基音频率进行估计;
1.2在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值。
语音分析模型为现有技术,其可将语音信号模拟为可用于转换的特征参数,本发明可采用谐波随机模型,该模型将语音信号模拟为大量基频谐波正弦信号和噪声分量,对基频谐波正弦信号作进一步分析,得到适用于转换的语音信号特征参数。
自相关法为现有算法,是语音信号基音频率提取算法中较为经典且具有代表性的方法。
步骤(2)中,从步骤(1)中得到的参数包括原始语音的离散的谐波幅度值和相位值,从上述离散的谐波幅度值中提取与音素有关,即适用于语音转换任务的特征参数集合,包括步骤:
2.1对离散的谐波幅度值求取平方值;
2.2根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该矩阵方程得到线性预测系数;
2.3将线性预测系数转换为目标倒谱系数,并求得原始语音的基音频率;
2.4得到包含原始语音倒谱系数和基因频率参数的特征参数集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611189592.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电视画面和外设声音同步控制方法和装置
- 下一篇:音频文件的评分方法及装置