[发明专利]一种面向多时间尺度韵律特征的语音转换方法无效

申请号：	201210538744.X	申请日：	2012-12-13
公开（公告）号：	CN103021418A	公开（公告）日：	2013-04-03
发明（设计）人：	李燕萍;张玲华	申请（专利权）人：	南京邮电大学
主分类号：	G10L21/00	分类号：	G10L21/00;G10L13/00;G10L15/02;G10L15/14
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向多时间尺度韵律特征的语音转换方法，属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取，其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画，克服韵律信息表述的模糊性和复杂性，而且通过时序性统计模型的建立，实现多时间尺度的韵律特征转换，增强转换语音的说话人个性信息，同时提高转换语音的可懂度和自然度。
搜索关键词：	一种面向多时尺度韵律特征语音转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种面向多时间尺度韵律特征的语音转换方法，其特征在于，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：步骤A，语音信号预处理：对目标说话人和源说话人输入的语音信号，分别依次进行预加重、分帧和加窗处理；步骤B，语音特征矢量提取，所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征，其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征，具体提取步骤如下：对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取，得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征；同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解，求取语音信号的谐波成分和噪声成分，然后对谐波加噪声模型的参数进一步降维与量化，最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征；步骤C，根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征，对于每一个时间尺度下的源说话人、目标说话人的韵律特征，分别采用双隐马尔科夫模型进行建模，进行动态特性和统计特性的分析，实现各时间尺度下的韵律特征的转换；步骤D，根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征，采用联合高斯混合模型进行建模，实现频谱特征的转换；所述转换阶段包括如下步骤：步骤E，输入源说话人新的语音，对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作，得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征；步骤F，对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征，采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换；步骤G，对步骤E得到的源说话人新的语音信号的频谱特征，采用上述步骤D得到的高斯混合模型进行语音频谱转换，得到转换后的目标说话人的频谱特征；步骤H，对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成，最终得到转换后的语音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210538744.X/，转载请声明来源钻瓜专利网。

同类专利

一种语音信号修复方法及移动终端-201710468133.5
发明人：屠光明;李凤亮 -专利权人：维沃移动通信有限公司
申请日： 2017-06-19 - 公布日： 2019-03-05 - 主分类号： G10L21/00
摘要：本发明提供了一种语音信号修复方法及移动终端，涉及移动终端技术领域。其中，所述方法包括：检测到接收的原始语音信号存在断续时，将所述原始语音信号的连续部分转化为参考文字；根据所述参考文字，从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字；将所述缺失文字转化为补偿语音信号；将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置，并播放插入所述补偿语音信号的原始语音信号。从而可以解决通过现有方法修复语音信号之后，该语音信号所表示的语义仍然不完整的问题，从而提高了通话质量。

车辆动态声学模型-201580082572.1
发明人：普拉米塔·密特拉;加里·史蒂文·斯特鲁莫洛;克雷格·约翰·西蒙兹;阿里·哈桑尼;马克·A·库迪西;戴维·梅尔彻 -专利权人：福特全球技术公司
申请日： 2015-08-24 - 公布日： 2018-07-17 - 主分类号： G10L21/00
摘要：车辆语音处理器包括处理设备和数据存储介质。处理设备编程为从可穿戴设备接收识别信息、根据识别信息识别讲话者、根据识别信息识别与讲话者相关联的语调、选择预定的声学模型、并且至少部分地基于所识别的语调来调整预定的声学模型。

替换经编码的音频输出信号-201680017099.3
发明人： J·马基嫩 -专利权人：微软技术许可有限责任公司
申请日： 2016-02-23 - 公布日： 2017-11-28 - 主分类号： G10L21/00
摘要：公开了经编码的音频输出信号的替换。在一个示例中，包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集被接收到。中间音频信号通过对数字音频输入信号应用音频处理修改来被产生。音频处理修改使用因装置而异的信息。要使用的特定的音频处理修改基于用户输入或其他信息来被确定。中间音频信号被编码以产生第二经编码的音频输出信号。第一经编码的音频输出信号用数据集中的第二经编码的音频输出信号来被替换。

分离的音频分析和处理-201510283591.2
发明人：施栋;孙学京 -专利权人：杜比实验室特许公司
申请日： 2015-05-28 - 公布日： 2017-01-04 - 主分类号： G10L21/00
摘要：本文中公开的示例实施例涉及分离的音频分析和处理。公开了一种用于处理音频信号的系统。该系统包括音频分析模块，被配置为分析输入音频信号以确定针对输入音频信号的处理参数，输入音频信号被表示在时域中。该系统还包括音频处理模块，被配置为与音频分析模块并行地处理输入音频信号。该音频处理模块包括时域滤波器，被配置为在时域中对输入音频信号进行滤波，以获得输出音频信号，以及滤波器控制器，被配置为基于由音频分析模块确定的处理参数来控制时域滤波器的滤波器系数。还公开了相应的处理音频信号的方法和计算机程序产品。

基于乐音音色匹配的正弦模型分离方法-201510169945.0
发明人：李素平;许雪艳 -专利权人：李素平;许雪艳
申请日： 2015-04-13 - 公布日： 2015-07-08 - 主分类号： G10L21/00
摘要：基于乐音音色匹配的正弦模型分离方法。本发明涉及音频信号处理应用领域。本发明的技术方案如下：首先提取乐音数据库中乐音样本的音色特征以构建乐音音色匹配高斯混合模型，然后再分析待分离混合乐音信号，具体步骤如下：采用正弦分析技术分析混合乐音信号的正弦轨迹曲线；然后利用起始端点检测算法抽取起点同步的正弦轨迹，实现混合乐音信号中同乐器正弦轨迹的重组；经平滑处理和正弦综合重构重组后正弦轨迹曲线对应的乐音信号；借助乐音音色匹配高斯混合模型对上个阶段重构乐音信号进行乐器识别，以实现混合乐音信号分离。本发明能够提高混合乐音信号分离效果，有益于更加有效的音频编码、更为精确的音频信息分析，同时也利于对信号进行更加复杂的操作控制。

改变包含在高阶高保真度立体声响复制表示中声音对象相对位置的方法以及装置-201280032460.1
发明人： P.贾克斯;J-M.巴特克 -专利权人：汤姆逊许可公司
申请日： 2012-06-15 - 公布日： 2014-03-12 - 主分类号： G10L21/00
摘要：阶高保真度立体声响复制HOA是有助于以优越的空间分辨率捕捉、处理、记录、传输和回放复杂的音频场景2D和3D的空间声场表示。在空间中的参考点处或附近的声场用傅里叶-贝塞尔级数近似。本发明使用空间翘曲（12，13，14；16）来修改捕获的或生成为较高阶的高保真度立体声响复制表示的声场信息的空间内容和/或再现。不同的翘曲特性对2D和3D声场是可行的。翘曲在不执行场景分析或分解的情况下在空间域中进行。给定阶数的输入HOA系数被解码成常规放置的（虚拟）扬声器的权重或输入信号。

具有多个媒体处理节点的自适应处理-201180057961.0
发明人：杰弗里·里德米勒;雷古纳森·拉达克里希南;马文·普里巴迪;法哈德·法哈尼;迈克尔·史密瑟斯 -专利权人：杜比实验室特许公司
申请日： 2011-12-01 - 公布日： 2013-11-13 - 主分类号： G10L21/00
摘要：本发明提供了一种基于指定媒体数据的状态的单独的数据，来自适应处理媒体数据的技术。媒体处理链中的装置可以确定是否已经对媒体数据的输入版本执行一种类型的媒体处理。如果是，则该装置可以调整其对媒体数据的处理以禁止执行该类型的媒体处理。如果否，则该装置执行该类型的媒体处理。该装置可以创建指定媒体处理的类型的媒体数据的状态。出于支持接收装置对媒体数据的自适应处理的目的，该装置可以将媒体数据的状态和媒体数据的输出版本传送至媒体处理链中的接受装置。

基于自适应算法的非对称语料库条件下的语音转换方法-201310146293.X
发明人：宋鹏;包永强;赵力;刘健刚 -专利权人：东南大学
申请日： 2013-04-24 - 公布日： 2013-09-04 - 主分类号： G10L21/00
摘要：本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法，首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后，利用自适应说话人模型中的参数，分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果，进而提出了将高斯归一化方法和均值转换融合的方法。同时，由于训练语句有限，必然影响自适应模型的准确性，本发明提出了KL散度的方法在转换时对说话人模型进行优化，主客观实验结果表明：无论是频谱失真度，还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。

对正交镜像滤波器式音频编译码器的输出信号的重新取样-201180049599.2
发明人：马库斯·洛瓦瑟;曼努埃尔·扬德尔;马克思·纽恩多夫;拉尔夫·盖尔;马库斯·施内尔;马蒂亚斯·伊尔登布朗;托比亚斯·查卢普卡 -专利权人：弗兰霍菲尔运输应用研究公司
申请日： 2011-08-11 - 公布日： 2013-08-28 - 主分类号： G10L21/00
摘要：提供一种用以处理音频信号的装置。此装置包含一个可配置式第一音频信号处理器（110），其依据不同的配置设定值（conf）处理该音频信号（s0），得到一个处理过的音频信号（s1），其中，该装置经调适使不同的配置设定值（conf）造成该处理过的音频信号（s1）的不同取样率（sr1）。该装置进一步包含：具有第一数目（c1）的分析滤波器排组通道的分析滤波器排组（120）；具有第二数目（c2）的合成滤波器排组通道的合成滤波器排组（130）；经调适可接收及处理一个具有某一预定的取样率（sr2）的音频信号（s2）的第二音频处理器；和控制器（150），其可依据一个配置设定值（conf）来控制分析滤波器排组通道的第一数目（c1）或合成滤波器排组频道的第二数目（c2）。

一种音频频带处理方法及系统-201110439500.1
发明人：付仕明;叶顺舟 -专利权人：重庆重邮信科通信技术有限公司
申请日： 2011-12-23 - 公布日： 2013-06-26 - 主分类号： G10L21/00
摘要：本发明实施例公开了一种音频频带处理方法及系统，能够提高用户感知的音频性能，且不增加算法复杂度和功耗。本发明实施例方法包括：确定待处理的音频信号的响度值动态范围；根据所述音频信号的响度值动态范围选择对应的人耳等响曲线；确定所述音频信号的频率范围；根据所述选择的人耳等响曲线确定所述音频信号的频率范围内各频点的权重值；基于所述各频点的权重值将所述音频信号划分为若干个音频子带信号。本发明实施例还提供一种音频频带处理系统。本发明实施例能够有效提高用户感知的音频性能，且不增加算法复杂度和功耗。

一种面向多时间尺度韵律特征的语音转换方法-201210538744.X
发明人：李燕萍;张玲华 -专利权人：南京邮电大学
申请日： 2012-12-13 - 公布日： 2013-04-03 - 主分类号： G10L21/00
摘要：本发明公开了一种面向多时间尺度韵律特征的语音转换方法，属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取，其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画，克服韵律信息表述的模糊性和复杂性，而且通过时序性统计模型的建立，实现多时间尺度的韵律特征转换，增强转换语音的说话人个性信息，同时提高转换语音的可懂度和自然度。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向多时间尺度韵律特征的语音转换方法无效

专利文献下载