[发明专利]一种基于声谱图显著性检测的音频识别方法有效

申请号：	201510054228.3	申请日：	2015-02-02
公开（公告）号：	CN104616664B	公开（公告）日：	2017-08-25
发明（设计）人：	陈雁翔;弓彦婷;任洪梅;王猛	申请（专利权）人：	合肥工业大学
主分类号：	G10L25/03	分类号：	G10L25/03;G10L25/48
代理公司：	安徽省合肥新安专利代理有限责任公司34101	代理人：	陆丽莉,何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于声谱显著检测音频识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于音频识别领域，具体地说是一种基于声谱图显著性检测的音频识别方法。

背景技术

随着互联网的高速发展，涌现大量的音频、视频和图像信息。但是音频信息的研究速度远远比不上视频和图像的研究，而且对大量音频信息的识别工作，单靠人工标注是一件庞大而又繁琐的工程，因此，实现对音频信号的自动识别，是音频领域的研究重点。

目前存在的音频信号的自动识别方法主要通过提取特征和选择分类器两大步骤进行，其中研究提取音频信号的声音特征为传统常用的音频识别方法。然而对大量未知复杂的音频数据，若不先对音频进行细化分类，针对不同类型的音频数据采取不同的处理过程，传统的音频识别方法存在明显不足。尤其是原始音频具有极其复杂的表示方式，缺少语义背景内容和结构化的组织，在间断、多源和噪声干扰等复杂的环境下如何选择能够准确表示此类音频的特征信息，并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究问题。

近年来，随着人类听觉神经科学认识的逐渐深入，越来越多的研究者将注意力放在基于声谱图的时频模型上。研究结果认为：声谱图中的时频结构反映了信号时域和空域结构，可以形成声学感知的稀疏基函数。这与大脑听觉感知系统有效去除冗余，利用较少的神经元表达更多的外界声音信息的思想一致。德国奥登堡大学的Kleinschmidt提出适合自动音频识别的新特征：声谱图中的局部时频结构特征。研究者认为该特征与听觉神经元的时频感受野特性相似，具有有效表达如共振峰的声学参数、较少加性噪声的影响和很好的泛化性。但是，该局部时频结构是通过研究者在声谱图中人工选取的，针对多声源和加性噪声存在的声谱图中，如何让计算机自动有效提取分离出主要声源的局部时频结构仍待解决。麻省理工学院的Schutte利用boosting分类器通过声谱图的局部时频结构识别音频。然而boosting分类器太过依赖人为设定和调节阈值，通过该方法对识别复杂环境下未知音频类型的音频数据来说并不实用。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种可靠、自动化、快速且强大的基于声谱图显著性检测的音频识别方法，以期能有效表征复杂环境下未知音频类型的特征信息，同时能够实现快速自动的音频识别。

本发明为解决技术问题采用如下技术方案：

本发明一种基于声谱图显著性检测的音频识别方法的特点是如下步骤进行：

步骤1、获取像素为M×N的n种不同声源的声谱图，每种声谱图获取m幅，从而获得m×n幅声谱图D＝{d₁,d₂,…,d_i,…,d_m×n}；d_i表示第i幅声谱图；i∈[1,m×n]；

对所述m×n幅声谱图D分别进行特征提取，获得基本特征集合；所述基本特征集合包括：RGBY色度特征集合C＝{C₁,C₂,…,C_i,…,C_m×n}、方向特征集合O＝{O₁,O₂,…,O_i,…,O_m×n}和亮度特征集合I＝{I₁,I₂,…,I_i,…,I_m×n}；C_i表示第i幅声谱图d_i的RGBY色度特征；O_i表示第i幅声谱图d_i的方向特征；I_i表示第i幅声谱图d_i的亮度特征；

步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图d_i进行显著性提取，获得第i幅显著性图S_i；根据所述第i幅显著性图S_i利用主图分离方法提取所述第i幅声谱图d_i的主图SM_i，所述第i幅主图SM_i是由R基色图R(SM_i)、G基色图G(SM_i)和B基色图B(SM_i)构成的像素为l×l的三维基色图；从而获得m×n幅声谱图D的主图集合SM＝{SM₁,SM₂,…,SM_i,…,SM_m×n}；l＜M,l＜N；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510054228.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于声谱图显著性检测的音频识别方法有效

专利文献下载