[发明专利]利用音频信号来识别内容的装置和方法有效
申请号: | 201280002116.8 | 申请日: | 2012-06-08 |
公开(公告)号: | CN103548076A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 曺焄荣;李载炯;C·S·迪里 | 申请(专利权)人: | 恩斯沃尔斯有限责任公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;胡冰 |
地址: | 韩国*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 音频 信号 识别 内容 装置 方法 | ||
技术领域
本发明一般地涉及一种利用音频信号来识别内容的装置和方法,更具体地,涉及一种能够基于输入的音频信号的指纹来提供匹配的内容信息的装置和方法。
背景技术
随着网络和互联网技术的发展,以及例如智能电话的移动通信终端的传播,已通过网络提供利用音频和视频的各种服务。进一步地,对于这些服务以及用于确定音频或视频的可识别性的方法,利用指纹的方法已被广泛使用,并且已提出了通过网络利用指纹来识别音频或视频的各种片段的技术。
利用指纹来识别音频或视频的技术实现为,利用一种生成帧(将给定的音频或视频信号分成多个帧)的特征向量,并且利用所述特征向量来进行匹配的方法。这样的现有技术的指纹生成和匹配方法的问题在于,计算复杂度高,因此需要时间来生成和匹配指纹,对网络资源增加了负荷。为了解决该问题,可以减少待生成的指纹的数量,或者简化匹配过程,但是这会导致匹配准确性降低的问题。
韩国专利NO.10-0456408(公开日:2004年11月10日)涉及一种“音频基因生成方法以及音频数据检索方法(audio gene generation methodand audio data search method)”,并公开了一种音频基因生成方法,该方法包括:时间分配步骤,将音频信号分配到定期时间间隔内;频率转换步骤,计算定期时间间隔的频率信号的幅度,或者计算包括在多个时间间隔内的频率信号的幅度;差计算步骤,将频域分为多个预定区段(section),并且计算相邻频率区段中出现的信号的幅度之间的差;梯度计算步骤,获得所计算的相邻时间间隔内的值之间的差;量化步骤,当梯度等于或大于0时将值量化为1,当梯度小于0时将值量化为0;音频基因生成步骤,存储量化后的值并且生成音频基因。
然而,该技术受限于计算复杂度高,指纹提取过程复杂,因此增加了负荷,而需要特别长的时间来计算出结果。
因此,需要研究一种指纹提取和匹配方法,其能够在短时间内提供准确的结果并且不增加负荷。
发明内容
技术问题
因此,针对上述问题提出本发明,本发明的目的在于提供一种利用音频信号来识别内容的装置和方法,其可以迅速地提供匹配结果,同时保持匹配的准确性和可靠性。
本发明的另一个目的是提供一种可变地匹配一个区段(区段具有大量的信息,同时将输入的音频信号分为多个帧)中的帧平移尺寸(帧平移尺寸是帧的起始点之间的间隔)的装置和方法,因此保持了准确性并迅速地提供匹配结果。
技术方案
为了实现上述目的,本发明提供了一种利用音频信号来识别内容的装置和方法,所述装置包括:疑问指纹提取部件,用于针对输入的音频信号,形成具有预设帧长度的帧,并针对各个帧生成基于帧的特征向量,从而提取出针对输入的音频信号的疑问指纹;参考指纹数据库,用于存储待与所述疑问指纹相比较的参考指纹,以及与所述参考指纹相对应的内容信息片段;指纹匹配部件,用于确定与所述疑问指纹相匹配的参考指纹;其中疑问指纹提取部件形成部分区段中帧平移尺寸变化的帧,帧平移尺寸为相邻帧的起始点之间的间隔。
在此情况中,帧平移尺寸可以比帧长度短,从而相邻的帧彼此重叠。
进一步,疑问指纹提取部件可以通过使得所述部分区段中的帧平移尺寸短于预设的帧平移尺寸而形成帧。
进一步,疑问指纹提取部件可以基于预定的时间区段来确定所述部分区段。
而且,疑问指纹提取部件可以检测检测信噪比(S/N)的值大于阈值的时间区段,并基于所检测到的时间区段确定所述部分区段。
而且,疑问指纹提取部件可以针对与所确定的所述部分区段相对应的各个帧生成基于帧的特征向量。
而且,疑问指纹提取部件可以基于与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量,针对待包括在所确定的所述部分区段中的各个帧生成基于帧的特征向量。
而且,与所述部分区段的起始位置相对应的帧为将该帧的起始位置作为最后位置的帧,且与所述部分区段的结束位置相对应的帧为将该帧的结束位置作为第一位置的帧。
而且,生成与所述部分区段的起始位置和结束位置相对应的帧的基于帧的特征向量,基于所生成的基于帧的特征向量,利用线性插值生成针对待包括在所述部分区段中的各个帧的基于帧的特征向量。
而且,与所述部分区段的起始位置和结束位置相对应的各个帧的基于帧的特征向量生成为二进制数字形式,通过比较生成的二进制数字形式的基于帧的特征向量的各个比特位,以及通过将可能的二进制数字布置为不同的比特,来生成待包括在所述部分区段中的各个帧的基于帧的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩斯沃尔斯有限责任公司,未经恩斯沃尔斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280002116.8/2.html,转载请声明来源钻瓜专利网。