[发明专利]一种结合SVM和增强型PCP特征的和弦识别方法有效
申请号: | 201410008923.1 | 申请日: | 2014-01-07 |
公开(公告)号: | CN103714806B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 李锵;闫志勇;关欣 | 申请(专利权)人: | 天津大学 |
主分类号: | G10H1/38 | 分类号: | G10H1/38;G10L15/08;G10L25/54 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 svm 增强 pcp 特征 和弦 识别 方法 | ||
技术领域
本发明是音乐信息内容检索领域中的一个重要方面。它在计算机音乐自动伴奏,歌曲翻唱检索以及音频分割与匹配等领域具有重要作用。
背景技术
随着互联网上各种音乐信息存储的增多以及移动互联网技术的快速发展,近年来,基于音乐内容的音乐信息检索(Music Information Retrieval,MIR)成为了国内外学者研究的热点。通常,人们能够从复杂的音乐演奏中提取丰富并且有意义的信息,但是截至目前使用计算机处理这些信号是有难度的,特别是在进行和弦识别或者和弦转录时更是一项具有挑战的任务。
一般认为,和弦识别是音乐信息检索的中心任务之一,它对音乐信息检索技术的发展具有重要作用。在和弦识别的研究中,主要包括两个方面的研究内容:一个是和弦特征的提取;另一个就是模式识别方法的选择。在音乐和弦识别的信号分析中,广泛采用了一种叫做音级轮廓特征PCP的信号特征。该特征将信号能量压缩到了音乐的12个音级上,从而形成12维的特征向量。应用谐波积光谱与PCP特征相结合的EPCP特征同传统的PCP特征相比对具有相同根音的和弦具有更好的识别率;结合人耳听觉特性和音乐理论提出的新的识别特征MPCP,可以克服PCP特征在低频段特征模糊和峰值处容易发生混倄的缺陷等。对于模式识别的方法选择,最初选用的是模版匹配法。除此之外,条件随机场分割方法也可以运用到和弦识别的研究中。虽然该方法对观测序列没有独立性要求,并且具有表达长距离依赖性和交叠性特征的能力,但是缺点就是运行时间过长,因此在实用性方面还需继续改进。采用神经网络方法通过模拟人类大脑可以对和弦进行识别,有效避免噪声对和弦识别率的影响,但是该方法能识别的歌曲数目十分有限。隐马尔科夫模型HMM是目前音乐和弦识别中应用比较广泛的一种方法,该方法的最终和弦识别率可以到达75%。HMM是一种产生式模型,需要严格的独立性假设。近年来,提出了将延时隐马尔可夫模型(Duration HMM)应用于和弦识别。
发明内容
音乐是一个典型的高度结构化的艺术形式,它频繁使用了某些和弦进程,因此,本发明提供一种结合SVM和增强型PCP特征的和弦识别方法,采用结构化预测模型来译码音乐的结构化信息,完成对和弦的识别。在本发明中,对改进以后的12维PCP特征,计算两两音级之间的互相关特征向量,并将其叠加到12维的PCP特征上,这样最终就可以得到90维的信号特征((1+12)*12/2+12)。因此,同HMM相比,使用支持向量机SVM能够有效减少由于增加特征数据而过度拟合带来的和弦识别误差。
为了解决上述技术问题,本发明一种结合SVM和增强型PCP特征的和弦识别方法,具体包括以下步骤:
步骤一、音频输入并进行节拍跟踪:通过节拍跟踪获取与节拍构成相符的音频节拍时间点信息,并得到信号能量特征E;
步骤二、提取增强型音级轮廓特征PCP:对信号能量特征E进行音高倒谱系数的处理,采用音高尺度公式log(E*C+1)代替信号能量特征E,其中,C表示音高正常数,C=100;对使用对数表示的音级能量进行DCT变换获取音高倒谱系数;然后,保留高频音高倒谱系数,将低频音高倒谱系数置零,对处理后的音高倒谱系数进行DCT逆变换得到变换后的音级能量,然后进行频谱映射,得到12维增强型音级轮廓特征PCP,记做lgE;对12维lgE特征的两两音级之间做互相关计算,将12维信号特征扩展为90维;
步骤三、支持向量机SVM分类参数的训练:提取每首歌曲的增强型音级轮廓特征PCP并与相应歌曲的标签文件组合形成的特征向量输入到两类分类器支持向量机SVM中进行训练;
步骤四、两类和弦分类到多类和弦分类的转变:将音乐和弦分为25类,包括12类大调和弦(C,C#,…G)和12类小调和弦(c,c#,…g),其他和弦作为第25类和弦,采用DAG算法完成两类分类到多类分类的转换;
步骤五、和弦类型的识别:通过步骤三和步骤四得到与25类和弦分别对应的分类器参数,将待识别歌曲输入到已经训练好的分类器中,从而得到该歌曲的和弦识别率。
进一步讲,步骤一中采用动态规划的节拍跟踪算法来计算音频节拍时间点信息,包括起始点能量包络、自相关最佳速率估计和节拍跟踪三个过程,具体步骤如下:
首先,将音频信号进行FFT变换,通过一个权重矩阵将傅立叶频谱变换成40维Mel频谱,计算每一维频谱沿时间轴的一阶差分,然后将整个频谱内的值相加,滤除直流后得到起始能量包络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410008923.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用DCXO和RF PLL的混合AFC
- 下一篇:一种LED散热外壳