[发明专利]一种基于指纹权重的音频样例检索方法在审
申请号: | 201811619718.3 | 申请日: | 2018-12-28 |
公开(公告)号: | CN111382303A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 李超;张学帅;邹学强;刘建;王中华;胡琦 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/61 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指纹 权重 音频 检索 方法 | ||
1.一种基于指纹权重的音频样例检索方法,其特征在于,该方法具体包括:
获取待检音频的二进制音频指纹序列值,在预先建立的哈希表中进行查找;查找出对应的模板音频的二进制音频指纹序列值;
计算待检音频和模板音频之间指纹序列差异数D、模板音频与待检音频之间允许指纹序列差异数的阈值Reject;如果D<Reject,则认为待检音频与模板音频相似;如果D>Reject,则认为待检音频存在错误。
2.根据权利要求1所述的基于指纹权重的音频样例检索方法,其特征在于,所述哈希表的预先建立的步骤具体包括:
步骤1)获取音频样例的音频指纹;
步骤2)获取音频样例的音频指纹权重;
步骤3)根据步骤1)中获取的音频指纹的二进制音频指纹序列值,以二进制音频指纹序列值为关键字建立哈希表。
3.根据权利要求2所述的基于指纹权重的音频样例检索方法,其特征在于,所述步骤1)具体包括:
步骤1-1)将音频样例的音频信号降低到适合人耳特性的音频信号,获得第一音频信号;
步骤1-2)将步骤1-1)获得的第一音频信号,以每0.064秒为一帧,对其进行分帧,获得多帧音频,根据公式(2),对每一帧音频用相同的汉明窗长度进行加权,加权方式如公式(3),以获得每一帧音频的加权后的第n个音频样点的值x(n);
其中,N为汉明窗长度,即每一帧音频的样点数;x'(n)为原始的第n个音频样点的值;w(n)为第n个音频样点的权重值;x(n)为加权后的第n个音频样点的值;
步骤1-3)针对步骤1-2)获得的每一帧音频的第n个音频样点的值x(n),采用一阶FIR高通滤波器,根据公式(4),进行预加重,获得预加重后的输出信号的值y(n);
y(n)=x(n)-ax(n-1) (4)
其中,a为预加重系数,0.9a1.0;x(n-1)为加权后的第n-1个音频样点的值;
步骤1-4)采用快速傅里叶算法,对步骤1-3)中的输出信号的值y(n),利用公式(5),进行离散傅立叶变换,获得音频帧经傅里叶变化后的频点值X(k);
其中,X(k)为音频帧经傅里叶变化后的频点值;N'为傅里叶变化采取的音频点数;k为频点编号;j为虚数;
步骤1-5)在频域,针对步骤1-4)中的X(k),在梅尔域进行子带划分,一共分成M个子带,根据公式(6),获得第m子带的起始频率f(m):
其中,Fmin为映射下限;Fmax为映射上限;M为子带个数;
步骤1-6)利用公式(7),计算第m子带所包含的能量e(m);假设第m子带的起始频率为f(m),第m+1子带的终止频率为f(m+1);
其中,音频帧经离散傅里叶变化后的频点值X(k)的绝对值的平方为第m子带所包含的能量e(m);
步骤1-7)假定第i帧音频信号的第m子带的能量为eim,其对应的二进制音频指纹序列值为tim,则音频指纹的每个比特定义为:
其中,sim为第i帧音频信号的第m子带与第i-1帧音频信号的第m+1子带之间的一阶相邻能量差;tim为第i帧音频信号第m子带的二进制音频指纹序列值;
根据获得的tim,获得第i帧音频信号的音频指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619718.3/1.html,转载请声明来源钻瓜专利网。