[发明专利]一种音频检索方法有效

申请号：	201710482883.8	申请日：	2017-06-22
公开（公告）号：	CN107402965B	公开（公告）日：	2020-04-28
发明（设计）人：	高万林;李佳璇;刘云玲;宋越;张莉;冯慧;于丽娜	申请（专利权）人：	中国农业大学
主分类号：	G06F16/61	分类号：	G06F16/61;G06F16/632;G06F16/683
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹;吴欢燕
地址：	100193 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种音频检索方法，包括：S1、获得样例音频的静音词，作为查询静音词；S2、根据倒排索引表，获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF；S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF，获得作为目标音频的候选音频。本发明具有并不需要高维距离计算，并且基于语音型的特点优化传统的表示级检索方法，在没有完善领域字典的情况下也能快速准确的技术优势。

技术领域

本发明涉及信号处理技术领域，更具体地，涉及一种音频检索方法。

背景技术

基于内容的音频检索根据检索的依据可以分为表示级检索和语义级检索。目前的研究中，针对语音类型的检索大都是通过语义级检索来实现，其中以语音识别为核心的语音文档检索发展已经比较成熟，针对不同的领域，需要设计不同的词典，针对性较强。

但是，针对于特定应用场景的语音识别必须以专业词库为基础，特别类似农业等领域专有词很多，不同地域的差异很大的复杂语境下，专业词库的设计比较复杂。相比之下，表示级检索方法虽然相对简单一些，但是具有更好的普适性，受应用场景的限制小，在相专用词典比较匮乏的情况下，如果能够较快的通过表示级检索来实现语音样例的检索，不失为一种替代选择。

近些年来，越来越多的学者开始关注表示级检索算法。表示级检索以音频样例检索为主要方式，使用更一般的音频特征来进行检索，需要经过音频预处理、特征提取、音频分割、音频分类和索引检索等步骤。近些年来，针对表示级检索方法的研究不多，大都集中于广告检测、片头、片尾曲重复性检测等实时性音频样例检索，也有一些针对于音乐类型数据的特定表示级检索方法研究,但是针对语音样例的表示级检索方法研究不多。直接采用传统的顺序匹配需要进行大量的高维距离计算，在面对海量数据库的检索时的时间难以忍受。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种音频检索方法。

根据本发明的一个方面，提供一种音频检索方法，包括：一种音频检索方法，包括：

S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值，获得样例音频的静音词，作为查询静音词；

S2、根据倒排索引表，获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF；

S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF，获得作为目标音频的候选音频。

优选地，所述步骤S2之前还包括：根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录，获得所述倒排索引表。

优选地，所述步骤S1包括：

S1.1、基于STE动态阈值和有效静音阈值，对所述样例音频进行静音检测，获得所述样例音频的有效静音特征；

S1.2、根据所述样例音频的有效静音特征的变化帧数阈值，对所述样例音频的有效静音特征进行求余运算，获得所述样例音频的静音词，作为所述查询静音词。

优选地，所述获得所述倒排索引表的步骤，进一步包括：

获得各音频包含的静音词；