[发明专利]基于MDCT频谱期望的压缩域音频指纹提取方法无效
| 申请号: | 201310142650.5 | 申请日: | 2013-04-23 |
| 公开(公告)号: | CN103324663A | 公开(公告)日: | 2013-09-25 |
| 发明(设计)人: | 吴黎明;邓耀华;王桂棠;韩威;高世平;陈智翔;李垚飞 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510006 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 mdct 频谱 期望 压缩 音频 指纹 提取 方法 | ||
技术领域
本发明涉及基于音频内容的压缩域音频索引领域,所述方法可用于压缩域音频指纹的快速提取,进而可用于音频文件的版权管理以及音频文件基本信息的查找。
背景技术
面对互联网上的海量音频文件,如何从一个音频信息库中快速查找到自己所需要的音频文件已经成为了一种挑战!而当今互联网上大多数音频文件都以MP3格式进行存储和传输,又该如何直接对MP3音频进行索引?
随着自动语音识别技术的兴起,基于音频指纹的音频索引技术得到了重点研究。音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。音频指纹具有以下三个最主要的性质:准确性,包括正确识别率、漏检率(False negative)和误检率(False positive);鲁棒性,指未知音频能在经受比较严重的音频信号处理后仍然能够被识别出来;指纹尺寸,为进行快速搜索,要求每个音频文件的指纹尽可能小。
国内外于20世纪末开始对音频指纹理论及其应用展开研究,Philips算法当属此中经典,目前主流的音频指纹算法就是基于Philips算法的改进方案。但是这类算法都基于wav(采用PCM编码)音频格式,需要先对MP3音频文件进行格式转换,并且该类算法需要在很高的帧间重复度情况下依然对各帧划分多个子带,算法时间复杂度大,指纹尺寸也较大。而当前大多数音频文件都以压缩格式(如MP3格式)进行存储和传输,因此压缩域音频指纹索引方案显得更有实用价值。
发明内容
本发明提供一种基于基于MDCT频谱期望的压缩域音频指纹提取方法,可以直接针对MP3音频文件提取音频指纹,能降低音频指纹提取算法时间复杂度,减小指纹尺寸。
本发明涉及基于MDCT频谱期望的压缩域音频指纹提取方法,其具体步骤是:
(1)直接对MP3格式音频文件进行逐帧解码得到连续MDCT频谱;
(2)对上述MDCT频谱进行划分:将每5帧MP3数据解码出的MDCT频谱作为一个块,相邻块之间的重叠度为95%;
(3)对上述各块MDCT频谱块进行临界带划分,计算出每个块内所有临界带的特征矢量;
各块MDCT频谱临界带特征矢量计算步骤如下:
①对每块MDCT频谱,在f=0~fs/2(fs为音频文件的采样值)中确定若干个临界带频率分割点。确定的方法是将i=1,2,3,...代入式(1),即可求出相应的(以Hz为单位)。
②以构成第i(i=1,2,3,...)临界带,将每个临界带中的MDCT系数|CMDCT|2取和即可得到相应的临界带特征矢量。如果是双通道音频,则采用(|CMDCT1|2+|CMDCT2|2)/2之和作为本临界带的特征矢量。用SEN=[sen1,sen2,...,senl,...,senn]表示临界带特征矢量,则可用式(2)计算临界带特征矢量如下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310142650.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种袋装水泥装卸工具
- 下一篇:一种侧出料的液压剪板机





