[发明专利]一种基于音色相似度的歌曲检索方法有效
申请号: | 201310074868.1 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103177722A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 罗森林;谢尔曼;潘丽敏;孔令志;吕英;高晓芳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音色 相似 歌曲 检索 方法 | ||
1.一种基于音色相似度的歌曲检索方法,其特征在于,所述方法包括以下步骤:
步骤1,对音频库的所有S首样本歌曲进行预处理,去除歌曲中的静音部分。
步骤2,在步骤1删除静音段之后,提取音频库中每首歌曲剩余的有效音频帧的MFCC参数。
步骤3,在步骤2的基础上,为音频库的每首歌训练相应的GMM模型。
步骤4,对于给定的歌曲样本,首先对其进行GMM建模,进而与步骤3得到的模型库D中的每个模型进行匹配,完成歌曲检索。
2.根据权利要求1所述的方法,其特征在于,所述预处理的方法包括如下步骤:
步骤1,对音频进行分帧处理,具体方法为:
帧移长度选为半帧,窗函数选用哈明窗(Hamming Window),如下式所示。
式中α的取值根据系统部署时的实际情况来确定。
步骤2,计算短时能量,具体方法为:
公式中,n是第n个短时帧,x(m)表示第n个短时帧内第m个采样点信号值,N是窗长,可以在系统部署时根据实际应用具体确定,w(n)表示长度为N的窗函数。上式也可以改写为
上式中h(n)定义如下
h(n)=w(n)2
步骤3,设定音频片段的长度为t,计算各音频片段的平均短时能量E平m,及整个语音的平均短时能量E平all。
式中,G为整首歌曲的音频帧数,g为t秒片段中包含的音频帧数。
步骤4,按照如下规则删除静音片段:
(1)当一个音频片段的能量低于某个阈值,就认为它是静音帧。
(2)当一个片段中的静音帧的比例超过阈值TS时,就认为它是静音片段。
阈值的设定与当前声音的响度和频率有关系,响度高阈值就高,所以阈值的设定应随不同的音频片段而变化。为此,所提方法采用自适应的阈值TE的判定方法:当音频帧的短时能量于一个3秒大小的滑动窗口内的平均短时能量的比值低于阈值TR时,就认为是静音帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310074868.1/1.html,转载请声明来源钻瓜专利网。