[发明专利]基于高斯过程输出后滤波的语音转换方法在审
申请号: | 201611189592.1 | 申请日: | 2016-12-21 |
公开(公告)号: | CN106782599A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 徐宁;鲍静益;姚潇;汤一彬;蒋爱民;刘小峰 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/27 |
代理公司: | 南京纵横知识产权代理有限公司32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过程 输出 滤波 语音 转换 方法 | ||
1.一种基于高斯过程输出后滤波的语音转换方法,其特征是,包括以下步骤:
(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;
(2)从分析得到的参数中提取与音素相关的特征参数集合;
(3)对原始语音和目标语音的特征参数集合进行参数对齐操作;
(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系;
(5)输入待转换源语音的特征参数,通过步骤(4)得到的映射关系得到目标语音的特征参数预测值;
(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计,并计算目标语音特征参数预测值的方差的高斯分布;
(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化,得到最佳目标语音特征参数预测值,最后用语音合成模型合成目标语音。
2.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(1)中,采用语音分析模型对原始语音进行的分析包括:
1.1对原始语音进行固定时长的分帧,用自相关法对其基音频率进行估计;
1.2在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值。
3.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,
步骤(2)中,从步骤(1)中得到的参数包括离散的谐波幅度值和相位值,从上述离散的谐波幅度值中提取与音素有关,即适用于语音转换任务的特征参数集合包括:
2.1对离散的谐波幅度值求取平方值;
2.2根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
2.3将线性预测系数转换为目标倒谱系数,并求得原始语音的基音频率;
2.4得到包含倒谱系数和基因频率参数的特征参数矩阵。
4.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(3)中,对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为:对于两个不等长的特征参数序列,利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上,从而实现一一对应的匹配关系;在现参数集合的对齐过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
5.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(4)中所述得到原始语音与目标语音特征参数映射关系的方法包括以下步骤:
4.4从步骤(2)得到的特征参数矩阵中提取原语音信号特征参数矩阵中的所有参数将其作为输入,目标语音参数矩阵中的其中一维数值作为输出,通过高斯过程训练两者之间的映射关系;
4.2依次选择目标参数矩阵中的其他各维数值作为输出,得到原始语音参数矩阵中参数与目标语音参数矩阵中各维数值之间的映射关系。
6.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(5)中,对于待转换源语音,处理过程包括步骤:
5.1对待转换源语音依次按步骤(1)、(2)、(3)进行分析处理,得到待转换源语音的特征参数;
5.2利用步骤(4)得到的映射关系,将步骤5.1得到的待转换源语音的特征参数,映射为目标语音的特征参数,即得到目标语音的特征参数预测值,进一步得到相应的特征参数矩阵。
7.根据权利要求6所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(6)包括如下步骤:
6.1利用高斯过程对步骤5.2所得目标语音特征参数矩阵中的各维特征参数进行最大似然估计;
6.2计算步骤6.1所得的目标语音各维特征参数的方差,并求取其方差的高斯分布。
8.根据权利要求7所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(7)包括如下步骤:
7.1构建步骤6.1所得最大似然估计值和步骤6.2所得方差的高斯分布的联合函数,并对该联合函数进行最优化,实现对高斯过程预测输出的后滤波,得到最佳目标预测值,重构目标语音的特征参数矩阵;
7.2基于上述重构的特征参数矩阵和目标语音的基音频率,利用语音合成模型转换为目标语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611189592.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电视画面和外设声音同步控制方法和装置
- 下一篇:音频文件的评分方法及装置