[发明专利]基于信号时序特征建模的高质量语音转换方法有效

申请号：	201210490464.6	申请日：	2012-11-27
公开（公告）号：	CN103035236A	公开（公告）日：	2013-04-10
发明（设计）人：	徐宁;鲍静益;汤一彬	申请（专利权）人：	河海大学常州校区
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L25/03
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	213022 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于信号时序特征建模质量语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音转换技术，是一种结合语音识别和语音合成技术，实现变换一个说话人的声音，使其听起来像另外某个特定的说话人声音的技术，尤其涉及一种基于信号时序特征建模的高质量语音转换方法。

背景技术

语音转换技术是语音信号处理领域近年来新兴的研究分支，涵盖了语音识别和语音合成等领域的内容，拟在保持语义内容不变的情况下，通过改变一个特定说话人(被称为源说话人)的话音个性特征，使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。

经过多年的发展，语音转换领域已经涌现出一些高效实用的算法，其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端，例如：人为假设数据满足独立同分布的条件，并在特征转换的过程中强制转换方式以逐帧的次序进行。这种忽略了帧间参数相关性的做法虽然极大的简化了问题，降低了求解难度，但是却违背了语音信号存在强相关性的事实，导致模型描述信号时变特性的能力下降，最终影响语音转换的效果。

针对上述问题，目前已存在一些应对方案。例如，比较典型的是利用“差分特征参数”的思想。所谓“差分特征参数”是指：在进行高斯混合模型建模时，将原先的联合特征矢量扩展成包含一阶差分的特征矢量。这样一来，帧间参数的渐变特性就被吸收进了新的特征参数，从而在一定程度上弥补了该模型缺乏对动态特性建模的缺陷。另一方面，为了彻底避免高斯混合模型固有的独立性假设的缺陷，一些新的语音转换方案开始采用隐马尔可夫模型作为基本映射模型。该模型的主要特点是可以精确地控制信号的时序特征，并且在物理层面上与语音信号的产生和转变有着莫大的联系。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于信号时序特征建模的高质量语音转换方法，通过混合式卡尔曼滤波器，给出了模型利用原始数据更新自身参数的算法；并在平行数据的条件下，将语音信号中包含的语义信息哈说话人个性信息分别赋予模型的隐层和显层，是一种在保持语义信息不便的条件下，灵活转换说话人个性信息的方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

基于信号时序特征建模的高质量语音转换方法，针对源和目标的平行数据，考虑对其时序特征进行建模和跟踪，利用混合式卡尔曼滤波器，并在期望最大化准则下估计模型结构参数，最终利用该模型映射语音的特征参数集合，实现高质量的语音转换效果；具体包括如下步骤：

(1)采用语音分析模型对原始语音信号进行分析；

(2)从分析得到的参数中提取与音素相关的特征参数集合；

(3)对源和目标的特征参数集合进行归一化操作，实现参数集合的对齐；

(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出，实现模型参数的训练和估计；

(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数，基于特征参数映射方法映射任意的语音信号参数；

(6)对转换后的特征参数进行反变换操作，即进行参数内插和相位补偿，最后用语音合成模型合成为高质量的语音；

上述步骤中，步骤(1)～(4)为训练步骤，步骤(5)～(6)为转换步骤；所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层，所述隐层用于描述时序信号状态之间的渐变效果。

所述混合式卡尔曼滤波器，由于隐层能够使得每个时刻的观察变量均有可能处于不同的状态，对每个时刻观察到的变量通过计算状态概率、观测概率以及与之对应的后验概率，获得对不同时刻的观察变量数据底层属性的分类知识；利用获得的分类知识，设计变量转移规则，用以描述信号随时间变化的特征；利用贝叶斯推理，使模型参数的估计存在不确定性，即保留了每种状态的后验概率，从而形成了所谓的混合度。该混合式尔曼滤波器克服了经典卡尔曼滤波器在跟踪快变时序信号时出现的发散式困难，使得结果更加精确。

所述步骤(1)中的语音分析模型的工作过程包括如下步骤：

(a1)对语音信号进行固定时长的分帧，用互相关法对基音频率进行估计；

(a2)在浊音信号部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值；

(a3)在清音阶段，利用经典的线性预测分析法对其进行分析，从而得到线性预测系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河海大学常州校区，未经河海大学常州校区许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210490464.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种气动夹紧及电动裁切结合的胶管裁切机
下一篇：一种圆弧切割辅助尺

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于信号时序特征建模的高质量语音转换方法有效

专利文献下载