[发明专利]一种基于音频特征的数字音频延展方法有效

申请号：	201110177195.3	申请日：	2011-06-28
公开（公告）号：	CN102855883A	公开（公告）日：	2013-01-02
发明（设计）人：	王朝坤;王建民;汪浩;刘璋	申请（专利权）人：	清华大学
主分类号：	G10L21/04	分类号：	G10L21/04
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。
搜索关键词：	一种基于音频特征数字音频延展方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于音频特征的数字音频延展方法，其特征在于，所述方法包括：将原始数字音频文件按照预设标准进行分段，得到以段落为单位记录乐曲信息的数据；根据段落间的相似性对段落分类；选取合适的连续段落插入原乐曲，使其达到用户需求时长的80％到120％；对于插入后的乐曲，选取抗性符合预设需求的段落，对该段落进行长度的时域修改，并重复该步骤，直到达到用户需求时长。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110177195.3/，转载请声明来源钻瓜专利网。

上一篇：多目标多站点无功协调控制方法
下一篇：多通道微流控血流变分析芯片及其分析系统和分析方法

同类专利

抖动缓冲器控制器、音频解码器、方法及计算机可读存储介质-201480046466.3
发明人：斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔 -专利权人：弗劳恩霍夫应用研究促进协会
申请日： 2014-06-18 - 公布日： 2019-09-13 - 主分类号： G10L21/04
摘要：一种用于基于输入音频内容来控制对已解码音频内容的提供的抖动缓冲器控制器配置为按照信号自适应方式选择基于帧的时间缩放或基于样本的时间缩放。音频解码器使用这种抖动缓冲器控制器。

使用质量控制的时间缩放器、音频解码器、方法和计算机程序-201910588534.3
发明人：斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔;尼古拉斯·费伯尔 -专利权人：弗劳恩霍夫应用研究促进协会
申请日： 2014-06-18 - 公布日： 2019-09-06 - 主分类号： G10L21/04
摘要：一种用于提供输入音频信号的时间缩放版本的时间缩放器配置为计算或估计可通过对所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本的质量。所述时间缩放器配置为取决于可通过对所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计，来执行所述输入音频信号的时间缩放。一种音频解码器包括这种时间缩放器。

时间缩放器、音频解码器、方法和计算机可读存储介质-201480046485.6
发明人：斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔;尼古拉斯·费伯尔 -专利权人：弗劳恩霍夫应用研究促进协会
申请日： 2014-06-18 - 公布日： 2019-09-06 - 主分类号： G10L21/04
摘要：一种用于提供输入音频信号的时间缩放版本的时间缩放器配置为计算或估计可通过对所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本的质量。所述时间缩放器配置为取决于可通过对所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计，来执行所述输入音频信号的时间缩放。一种音频解码器包括这种时间缩放器。

子带处理单元以及生成合成子带信号的方法-201410461177.1
发明人：拉尔斯·维尔默斯 -专利权人：杜比国际公司
申请日： 2011-01-05 - 公布日： 2017-09-01 - 主分类号： G10L21/04
摘要：本文档涉及子带处理单元以及生成合成子带信号的方法。子带处理单元包括块提取器、非线性帧处理单元以及重叠及相加单元。块提取器被配置为重复地根据多个复值分析样本得出L个输入样本的帧，其中块提取器被配置为根据反映所述输入音频信号的瞬间声学性质的控制数据来设置帧长度L；以及在得出L个输入样本的接下来的帧之前对多个复值分析样本应用p个样本的块跳跃大小由此生成输入样本的一系列帧。非线性帧处理单元被配置为根据输入样本的帧确定经处理样本的帧。重叠及相加单元被配置为通过将经处理样本的一系列帧的样本进行重叠及相加来确定合成子带信号，其中分析子带信号与关于输入音频信号被时间拉伸和/或频率换位的信号的频带相关联。

子带处理单元以及生成合成子带信号的方法-201410461154.0
发明人：拉尔斯·维尔默斯 -专利权人：杜比国际公司
申请日： 2011-01-05 - 公布日： 2017-05-31 - 主分类号： G10L21/04
摘要：本文档涉及子带处理单元以及生成合成子带信号的方法。子带处理单元包括第一块提取器、第二块提取器、非线性帧处理单元和重叠及相加单元。第一块提取器被配置为重复地根据多个第一分析样本得出L个第一输入样本的帧；帧长度L大于1；以及在得出L个第一输入样本的接下来的帧之前，对多个第一分析样本应用p个样本的块跳跃大小；由此生成L个第一输入样本的一系列帧。第二块提取器被配置为通过对多个第二分析样本应用块跳跃大小p来得出第二输入样本的一系列帧；其中，每个第二输入样本对应于第一输入样本的帧。

语音信号复原装置以及语音信号复原方法-201180073679.1
发明人：细谷耕佑;古田训;山浦正 -专利权人：三菱电机株式会社
申请日： 2011-12-27 - 公布日： 2014-05-28 - 主分类号： G10L21/04
摘要：音源生成部（101）根据未进行噪声抑制处理的窄频带语音信号生成包括所复原的频带的微细构造的音源信号。另一方面，噪声抑制部（102）对窄频带语音信号进行噪声抑制，谱包络推测部（103）推测所复原的频带的谱包络。信号合成部（104）合成音源信号和谱包络来生成虚拟语音信号，带通滤波器部（105）使所复原的频带的虚拟语音信号通过，信号加法部（106）对窄频带语音信号相加所复原的频带的虚拟语音信号而生成宽频带的语音复原信号。

改进的谐波转置-201310475634.8
发明人：佩尔·埃克斯特兰德;拉尔斯·法尔克·维尔默斯 -专利权人：杜比国际公司
申请日： 2010-03-12 - 公布日： 2014-02-05 - 主分类号： G10L21/04
摘要：本发明涉及在时间上和/或频率上对信号进行转置，尤其涉及音频信号的编码。更具体地，本发明涉及包括频域谐波转置器的高频重建(HFR)方法。描述了用于使用转置因子T从输入信号生成转置的输出信号的方法和系统。该系统包括：长度La的分析窗，其提取输入信号的帧；以及M阶的分析变换单元，其将样本变换成M个复数系数。M是转置因子T的函数。该系统还包括：非线性处理单元，其通过使用转置因子T来改变复数系数的相位；M阶的合成变换单元，其将改变的系数变换成M个改变的样本；以及长度Ls的合成窗，其生成输出信号的帧。

提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码-201210491652.0
发明人：斯特凡·拜尔;萨沙·迪施;拉尔夫·盖格尔;纪尧姆·福克斯;马克斯·诺伊恩多夫;杰拉尔德·舒勒;贝恩德·埃德勒 -专利权人：弗劳恩霍夫应用研究促进协会
申请日： 2009-07-06 - 公布日： 2013-03-27 - 主分类号： G10L21/04
摘要：音频编码器包括窗口函数控制器(504)、加窗器(502)、具有最终质量检查功能的时间扭曲器(506)、时间/频率转换器(508)、TNS级(510)或量化器编码器(512)，由时间扭曲分析器(516)或信号分类器(520)获得的信号分析结果来控制所述窗口函数控制器(504)、所述时间扭曲器(506)、所述TNS级(510)或附加的噪声填充分析器(524)。此外，解码器使用取决于音频信号的谐波或语音特性的经操纵的噪声填充估计来应用噪声填充操作。

一种基于音频特征的数字音频延展方法-201110177195.3
发明人：王朝坤;王建民;汪浩;刘璋 -专利权人：清华大学
申请日： 2011-06-28 - 公布日： 2013-01-02 - 主分类号： G10L21/04
摘要：本发明提供了一种基于音频特征的数字音频延展方法，在数字音频时域延展前，根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段，保证插入操作后音频片段之间自然衔接。在插入操作后，通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展，重复进行至达到延展要求，最大限度地降低音频延展对于音频质量的影响，保证整首乐曲在延展后的播放效果，由于乐曲在被延展后听觉效果与原乐曲接近，没有破坏乐曲的欣赏性。

基于短时连续非负矩阵分解的语音时长调整方法-201210335362.7
发明人：张雄伟;吴海佳;黄建军;陈卫卫;赵改华;李铁南 -专利权人：中国人民解放军理工大学
申请日： 2012-09-11 - 公布日： 2013-01-02 - 主分类号： G10L21/04
摘要：本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法，该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵；保持基矩阵不变，按语音时长调整比例，对编码矩阵进行线性内插；通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱；最后，利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能，改善了时长调整后语音的质量。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音频特征的数字音频延展方法有效

专利文献下载