[发明专利]基于卷积神经网络的环境声音识别方法及系统有效
申请号: | 201810862022.7 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109065030B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 张智超;徐树公;曹姗;张舜卿 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/02;G10L15/06;G06N3/04 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 环境 声音 识别 方法 系统 | ||
一种基于卷积神经网络的环境声音识别方法及系统,将从音频中提取得到的梅尔能量谱特征进行混合构建得到样本库,用于对卷积神经网络模型进行训练,最终以训练后的卷积神经网络进行环境声音的识别,本发明在ESC‑10、ESC‑50和UrbanSound8K三个公开声音数据集上取得了最好或者接近最好的结果。
技术领域
本发明涉及的是一种音频处理领域的技术,具体是一种基于卷积神经网络的环境声音识别方法及系统。
背景技术
在音频信息的研究中,环境声音识别是一个重要的研究领域,其在安全监控、医疗监护、智能家居和场景分析等领域有着很大的应用潜力。相比于语音识别,环境声音具有类噪、宽频谱等特性,使得环境声音的识别更具有挑战性。
现有的基于卷积神经网络和耳蜗谱图的声音事件识别方法、基于卷积神经网络和随机森林的声音场景识别方法以及基于时频域统计特征提取的环境声音识别方法均具有适用范围有限、特征提取不方便、对于噪声的鲁棒性较差等缺点。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于卷积神经网络的环境声音识别方法及系统,能够结合声音梅尔能量谱有效提取特征的同时,使用混合构建的方法进行模型训练,增强训练样本分布,提高模型鲁棒性。本发明在ESC-10、ESC-50和UrbanSound8K三个公开环境声音数据集上取得了目前最好或接近最好的识别准确度。
本发明是通过以下技术方案实现的:
本发明涉及一种基于卷积神经网络的环境声音识别方法,将从原始音频中提取得到的梅尔能量谱特征进行混合构建得到样本库,用于对卷积神经网络进行训练,最终以训练后的卷积神经网络进行环境声音的识别。
所述的提取,具体包括以下步骤:
①对原始音频进行分帧后对每一帧进行FFT变换得到声音的幅度谱其中:s(n)为声音信号,1≤k≤N-1,经平方处理得到声音的能量谱P(k)=|S(k)|2;
②利用梅尔滤波器组将声音的能量谱转换到梅尔频率表示,具体为:其中:f为时域频率、fm为梅尔滤波器中心频率,
③对得到的梅尔能量谱进行非线性变换:然后对梅尔能量谱进行分割,得到若干个梅尔能量谱片段,即梅尔能量谱特征。
所述的混合构建是指:从梅尔能量谱特征中随机选出两个样本,将两个样本按比率混合构建虚拟训练样本,以两个样本的混合比率为训练目标,通过利用特征的线性插值和相关目标的线性插值扩展训练分布增加训练样本的多样性,对模型有正则化的作用,提高了模型的鲁棒性。
所述的混合具体为:其中:xi和xj是随机选择的样本,yi和yj是对应的one-hot类型训练标签,和是所构建的虚拟训练样本和对应的训练标签。
所述的卷积神经网络包括:八个卷积层和两个全连接层,其中:每两个卷积层后通过设置一最大池化层进行降维;该卷积神经网络采用混合构建得到的样本库训练。
本发明涉及一种实现上述方法的系统,包括:特征提取模块、混合构建模块以及网络训练模块,其中:特征提取模块从原始音频中提取得到梅尔能量谱片段并输出至混合构建模块,混合构建模块对梅尔能量谱片段及其one-hot标签混合生成训练样本并输出至网络训练模块,网络训练模块使用混合样本进行训练后再次接收待测音频并输出对应的类别预测概率分布。
技术效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810862022.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小规模语料DNN-HMM声学模型
- 下一篇:语音标注方法、装置及设备