[发明专利]基于快速稀疏分解和深度学习的生态声音识别方法有效
申请号: | 201310472330.6 | 申请日: | 2013-10-11 |
公开(公告)号: | CN103531199A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 李应;欧阳桢 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L17/26;G10L17/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 快速 稀疏 分解 深度 学习 生态 声音 识别 方法 | ||
技术领域
本发明涉及一种基于快速稀疏分解和深度学习的生态声音识别方法。
背景技术
近年来,栖息地保护受到越来越广泛的关注,部分地区已大规模部署监控以掌握实时信息。通过分析和识别生态环境中包含的音频信息,可以为入侵监测、物种勘察等应用提供数据支持。在现实环境中,复杂多变的背景噪声是普遍存在的,因此,噪声环境下的生态声音识别具有重要的实际意义。
目前语音与音乐分类识别技术较多,而环境声音的研究相对较少。不同环境包含的音频信息差别很大,如餐厅,广场等嘈杂环境中,更多的是说话声、碰撞声或车声等,生态环境中的音频更侧重于动物和自然所产生的声音。目前有较多方法针对如鸟叫或蛙叫等单类别声音改进的识别算法,应用范围较为有限,例如:Chen等人提出频域特征多级平均谱(Multi-StageAverageSpectrum,MSAS),结合音节长度对18种蛙类声音进行两次识别分类,识别效果优于单独利用MSAS特征,但是对于重叠的动物叫声,音节长度分类显然不能奏效;Lee等人使用高斯混合模型(GMM)对谱图形态特征进行建模,对连续型鸟叫进行分类识别。还有一些多类别生态声音识别的研究如:Raju等人提取基音,共振峰和短时能量特征集结合支持向量机(SVM)对包括猫狗狮子在内的19种动物声音进行分类识别;Zhang等人提取改进的Mel频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)作为特征并使用GMM对多种昆虫声音分类识别。
以上这些方法都存在一些不足之处,GMM和隐马尔科夫模型(HMM)在语音等结构化声音上应用较为广泛,而生态声音随机性较大,且并非都是结构化的,所以使用上述产生式模型并不稳定。判别式模型SVM和一些传统的神经网络能够较好的对非线性可分类进行建模,但在高维特征及类别数量较多时,分类效果还不如GMM或HMM。
发明内容
有鉴于此,本发明的目的是提供一种基于快速稀疏分解和深度学习的生态声音识别方法。
本发明采用以下方案实现:一种基于快速稀疏分解和深度学习的生态声音识别方法,其特征在于,包括以下步骤:
S01:分别对纯净声音和测试带噪声音进行OMP稀疏分解,对应输出纯净声音和测试带噪声音的重构信号和OMP特征;
S02:分别对纯净声音和测试带噪声音提取包括OMP特征在内的复合特征;
S03:对重构后的纯净声音提取的复合特征进行DBN模型训练;
S04:对重构后的测试带噪声音和训练后的纯净声音提取的复合特征进行DBN模型分类,输出测试带噪声音所属的生态声音类别。
在本发明一实施例中,假设待分解信号f,长度为N,进行稀疏分解之前,首先构造过完备原子字典D=(gγ)γ∈Γ,时频原子gγ是Gabor原子,由参数组γ=(s,u,v,w)定义,平移因子u定义一个原子gγ的中心位置,伸缩因子s,频率因子v和相位因子w定义其波形,其离散化时频参数γ=(s,u,v,w)=(aj,pajΔu,ka-jΔv,iΔw),其中,0<j≤log2N,0≤p≤N2-j+1,0≤k<2j+1,0≤i≤12,a=2,Δu=1/2,Δv=π,Δw=π/6;所述步骤S01具体步骤包括:
S011:初始化信号残差R0f=f,迭代次数k=1,最大迭代次数L;
S012:从过完备原子字典D中选出第k次迭代与信号残差最为相关的原子gγk,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310472330.6/2.html,转载请声明来源钻瓜专利网。