[发明专利]基于音频指纹特征的音乐检索系统有效

专利信息
申请号: 201310378000.0 申请日: 2013-08-27
公开(公告)号: CN103440313B 公开(公告)日: 2018-10-16
发明(设计)人: 俞鹏飞;杨夙 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;盛志范
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于信息检索技术领域,具体为一种基于音频指纹特征的音乐检索系统。该系统由预处理模块、特征提取模块、倒排索引模块和精匹配模块四部分组成。预处理模块主要完成音频信号的转换、重采样、滤波;特征提取模块是对音频文件的表示,采用音频指纹特征,通过两次基于动态阈值的筛选来选取频谱中最为稳定的点作为特征点,用一个点对表示一个特征;倒排索引模块是将特征作为关键词,由歌曲库的特征建立倒排索引,根据相同关键词多少返回索引结果;精匹配模块是结合音频特征间的时序关系,采用改进的编辑距离作为两个特征序列的相似度,以此优化索引结果。本系统适用海量音乐检索,尤其能对录音查询片段进行有效检索。
搜索关键词: 基于 音频 指纹 特征 音乐 检索系统
【主权项】:
1.一种基于音频指纹特征的音乐检索系统,其特征在于包括预处理模块,特征提取模块,倒排索引模块和精匹配模块四个部分;其中:所述的预处理模块,用于音频文件格式统一,音频重采样和音频滤波;所述的特征提取模块,用于对音乐文件的结构化表示,采用基于动态阈值的音乐指纹特征;首先对歌曲序列进行分帧,对每帧进行快速傅里叶变换,处理完所有帧,得到频谱矩阵;接着,对频谱矩阵进行平滑处理;然后,在矩阵中选取极值点,并根据动态阈值对这些点进行两次筛选,取大于阈值的点作为特征点;最后,用一个点对表示一个特征,并经哈希函数变换,输出一个哈希值为一个特征;对于每个特征点,在其后续频段的邻近区域内,选取最多P个最近邻的特征点与该特征点一一组成特征;所有特征按帧的先后顺序和首次特征点筛选顺序组成一维特征序列;所述的倒排索引模块,用于系统的初次检索,以一个特征作为一个关键词,对数据库中的每首歌曲的特征建立倒排索引表;当查询时,通过倒排索引表统计查询片段每个关键词在各歌曲中出现的次数,并将所有关键词在各个歌曲中出现的次数求和,然后对求和的结果进行排序,排序结果所对应的歌曲作为初次检索结果;所述的精匹配模块,用于系统的二次检索,先根据初次检索返回的结果选定候选歌曲,接着读取各候选歌曲的特征序列,并对特征序列按查询特征序列长度进行分段,对每首歌曲筛选出最为相似的Q个特征序列片段,即其与查询特征序列具有最多的相同特征个数;然后,对这Q个片段与查询特征序列进行改进的编辑距离计算,取最小的编辑距离作为该歌曲片段与查询片段的相似度;最后,根据相似度对候选歌曲进行排序,得到最终的检索排名;在特征提取模块中,所述的采用基于动态阈值的音乐指纹特征,具体实现过程为:首先,对音频序列X={x1,x2,…,xL}进行分帧,L为音频序列长度,帧之间有较高的重叠率,共分成M帧;接着,对每一帧进行N点快速傅里叶变换,处理完所有帧后,得到N*M维的频谱矩阵S,并对频谱矩阵S=[Si,j|i=1,2,…,N;j=1,2,…,M]进行平滑处理,平滑计算公式如下:Si,j=log10(max(abs(Si,j),e‑5))i=1,2,...,N,j=1,2,...,M (1)其中abs()为取模运算,然后,在S中选取极大值点,即Si,j>Si,j‑1且Si,j>Si,j+1,作为特征点,并根据阈值对特征点进行两次筛选;用N维向量thresh表示频谱中各频段的阈值,在S矩阵中,取开始R帧各频段的最大值来初始化对应频段的阈值;初次筛选:顺序扫描所有特征点,若该点值大于对应维度的阈值,则保留该特征点,否则删除该特征点,同时按以下公式更新阈值向量thresh:第二次筛选:从最后一个特征点开始,逆序扫描所有保留的特征点,按与上述相同规则筛选特征点和更新阈值;最后,用一个点对来表示一个特征,对于每一个特征点,用它分别与其后续频段的邻近区域的每个特征点组成一个特征;当邻近区域内特征点较多时,选取与它最相邻的P个点与该特征点一一组成特征,并按第一次筛选顺序逐个表示这些特征点,处理完所有帧得到一维特征序列;所述的倒排索引模块由两部分组成,一部分为字典,字典由词项组成,所有哈希值相同的特征组成一个词项;另一部分是倒排索引表,其中,每一个词项都对应一个属于自己的“倒排链表”,该表记录了包含该词项的歌曲编号或者歌曲片段编号;所述的精匹配模块,采用多个步骤实现精匹配,首先,根据初次检索返回的结果,寻找一“拐点”,假定倒排索引表返回的第i首歌曲中与查询片段具有的相同特征个数之和为numi,如果存在一点K,使得:则认为该点为“拐点”,目标歌曲就在这前K个候选歌曲片段中;接着,读取前K个候选歌曲片段的特征序列,对这些序列进行分段,找出最为相似的Q个片段,它们与查询序列具有最多的相同特征个数;然后,将这Q个片段与查询特征序列进行改进的编辑距离计算,把最小距离的片段作为与查询序列最相似的片段,并取最小距离作为与该候选歌曲片段的相似度;设查询特征序列A={A[1],A[2],…,A[m]},比较的特征序列B={B[1],B[2],...,B[n]},长度分别为m和n,距离矩阵d={d[i,j]=0|i=1,2,…,m;j=1,2,…,n},d[i,j]为子序列A[1…i]和B[1…j]的距离,改进的编辑距离算法步骤如下:(1)初始化距离矩阵d,读入特征序列A和B;(2)循环遍历特征序列A,逐次取数A[i],依次执行操作步骤(3)、(4)、(5);(3)循环遍历特征序列B,逐次取数B[j],依次执行操作步骤(4)、(5);(4)计算代价cost,如果数A[i]与数B[j]相等或只有1位(bit)不同,cost为0,否则为1,如公式:cost=min((A[i]^B[j])&((A[i]^B[j])‑1),1) (5)其中,^为位异或运算,&为位与运算;(5)调整距离矩阵,计算出当前最小距离d[i,j],公式如下:d[i,j]=min(d[i‑1,j]+1,d[i,j‑1]+1,d[i‑1,j‑1]+cost) (6)(6)d[m,n]即为改进的编辑距离。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310378000.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top