[发明专利]一种面向多时间尺度韵律特征的语音转换方法无效

专利信息
申请号: 201210538744.X 申请日: 2012-12-13
公开(公告)号: CN103021418A 公开(公告)日: 2013-04-03
发明(设计)人: 李燕萍;张玲华 申请(专利权)人: 南京邮电大学
主分类号: G10L21/00 分类号: G10L21/00;G10L13/00;G10L15/02;G10L15/14
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向多时间尺度韵律特征的语音转换方法,属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取,其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画,克服韵律信息表述的模糊性和复杂性,而且通过时序性统计模型的建立,实现多时间尺度的韵律特征转换,增强转换语音的说话人个性信息,同时提高转换语音的可懂度和自然度。
搜索关键词: 一种 面向 多时 尺度 韵律 特征 语音 转换 方法
【主权项】:
一种面向多时间尺度韵律特征的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤A,语音信号预处理:对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下:对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;所述转换阶段包括如下步骤:步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210538744.X/,转载请声明来源钻瓜专利网。

同类专利
  • 一种语音信号修复方法及移动终端-201710468133.5
  • 屠光明;李凤亮 - 维沃移动通信有限公司
  • 2017-06-19 - 2019-03-05 - G10L21/00
  • 本发明提供了一种语音信号修复方法及移动终端,涉及移动终端技术领域。其中,所述方法包括:检测到接收的原始语音信号存在断续时,将所述原始语音信号的连续部分转化为参考文字;根据所述参考文字,从存储的词汇数据库中确定所述原始语音信号的缺失部分对应的缺失文字;将所述缺失文字转化为补偿语音信号;将所述补偿语音信号插入至所述原始语音信号的缺失部分的位置,并播放插入所述补偿语音信号的原始语音信号。从而可以解决通过现有方法修复语音信号之后,该语音信号所表示的语义仍然不完整的问题,从而提高了通话质量。
  • 替换经编码的音频输出信号-201680017099.3
  • J·马基嫩 - 微软技术许可有限责任公司
  • 2016-02-23 - 2017-11-28 - G10L21/00
  • 公开了经编码的音频输出信号的替换。在一个示例中,包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集被接收到。中间音频信号通过对数字音频输入信号应用音频处理修改来被产生。音频处理修改使用因装置而异的信息。要使用的特定的音频处理修改基于用户输入或其他信息来被确定。中间音频信号被编码以产生第二经编码的音频输出信号。第一经编码的音频输出信号用数据集中的第二经编码的音频输出信号来被替换。
  • 分离的音频分析和处理-201510283591.2
  • 施栋;孙学京 - 杜比实验室特许公司
  • 2015-05-28 - 2017-01-04 - G10L21/00
  • 本文中公开的示例实施例涉及分离的音频分析和处理。公开了一种用于处理音频信号的系统。该系统包括音频分析模块,被配置为分析输入音频信号以确定针对输入音频信号的处理参数,输入音频信号被表示在时域中。该系统还包括音频处理模块,被配置为与音频分析模块并行地处理输入音频信号。该音频处理模块包括时域滤波器,被配置为在时域中对输入音频信号进行滤波,以获得输出音频信号,以及滤波器控制器,被配置为基于由音频分析模块确定的处理参数来控制时域滤波器的滤波器系数。还公开了相应的处理音频信号的方法和计算机程序产品。
  • 基于乐音音色匹配的正弦模型分离方法-201510169945.0
  • 李素平;许雪艳 - 李素平;许雪艳
  • 2015-04-13 - 2015-07-08 - G10L21/00
  • 基于乐音音色匹配的正弦模型分离方法。本发明涉及音频信号处理应用领域。本发明的技术方案如下:首先提取乐音数据库中乐音样本的音色特征以构建乐音音色匹配高斯混合模型,然后再分析待分离混合乐音信号,具体步骤如下:采用正弦分析技术分析混合乐音信号的正弦轨迹曲线;然后利用起始端点检测算法抽取起点同步的正弦轨迹,实现混合乐音信号中同乐器正弦轨迹的重组;经平滑处理和正弦综合重构重组后正弦轨迹曲线对应的乐音信号;借助乐音音色匹配高斯混合模型对上个阶段重构乐音信号进行乐器识别,以实现混合乐音信号分离。本发明能够提高混合乐音信号分离效果,有益于更加有效的音频编码、更为精确的音频信息分析,同时也利于对信号进行更加复杂的操作控制。
  • 改变包含在高阶高保真度立体声响复制表示中声音对象相对位置的方法以及装置-201280032460.1
  • P.贾克斯;J-M.巴特克 - 汤姆逊许可公司
  • 2012-06-15 - 2014-03-12 - G10L21/00
  • 阶高保真度立体声响复制HOA是有助于以优越的空间分辨率捕捉、处理、记录、传输和回放复杂的音频场景2D和3D的空间声场表示。在空间中的参考点处或附近的声场用傅里叶-贝塞尔级数近似。本发明使用空间翘曲(12,13,14;16)来修改捕获的或生成为较高阶的高保真度立体声响复制表示的声场信息的空间内容和/或再现。不同的翘曲特性对2D和3D声场是可行的。翘曲在不执行场景分析或分解的情况下在空间域中进行。给定阶数的输入HOA系数被解码成常规放置的(虚拟)扬声器的权重或输入信号。
  • 基于自适应算法的非对称语料库条件下的语音转换方法-201310146293.X
  • 宋鹏;包永强;赵力;刘健刚 - 东南大学
  • 2013-04-24 - 2013-09-04 - G10L21/00
  • 本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。
  • 一种音频频带处理方法及系统-201110439500.1
  • 付仕明;叶顺舟 - 重庆重邮信科通信技术有限公司
  • 2011-12-23 - 2013-06-26 - G10L21/00
  • 本发明实施例公开了一种音频频带处理方法及系统,能够提高用户感知的音频性能,且不增加算法复杂度和功耗。本发明实施例方法包括:确定待处理的音频信号的响度值动态范围;根据所述音频信号的响度值动态范围选择对应的人耳等响曲线;确定所述音频信号的频率范围;根据所述选择的人耳等响曲线确定所述音频信号的频率范围内各频点的权重值;基于所述各频点的权重值将所述音频信号划分为若干个音频子带信号。本发明实施例还提供一种音频频带处理系统。本发明实施例能够有效提高用户感知的音频性能,且不增加算法复杂度和功耗。
  • 一种面向多时间尺度韵律特征的语音转换方法-201210538744.X
  • 李燕萍;张玲华 - 南京邮电大学
  • 2012-12-13 - 2013-04-03 - G10L21/00
  • 本发明公开了一种面向多时间尺度韵律特征的语音转换方法,属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取,其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画,克服韵律信息表述的模糊性和复杂性,而且通过时序性统计模型的建立,实现多时间尺度的韵律特征转换,增强转换语音的说话人个性信息,同时提高转换语音的可懂度和自然度。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top