[发明专利]一种基于改进深度残差网络的城市声音分类方法在审
申请号: | 202111484910.8 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114242112A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 刘亚荣;黄海滨;黄飞扬;于顼顼 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/03;G10L25/18;G10L25/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 深度 网络 城市 声音 分类 方法 | ||
本发明公开了一种基于改进深度残差神经网络的城市声音分类方法,包括4个步骤:S1数据预处理:将声音的振幅和频率图形化;S2数据特征提取:提取声音信号的音频特征并进行数据标准化处理;S3改进深度残差网络分类器:构建改进的深度残差网络模型,将处理后的训练数据集送入改进深度残差网络分类器进行训练,得出改进深度残差网络声音分类器模型;S4声音分类结果判定:将声音测试数据集送入改进深度残差神经网络声音分类器模型进行测试,得出分类准确率。与传统分类方法相比,本发明提供的一种基于改进深度残差神经网络的城市声音分类方法,不仅避免了梯度爆炸和梯度消失现象,同时可以实现多种声音类型的智能分类。
技术领域
本发明涉及大数据和深度学习领域,特别涉及一种基于改进深度残差网络的城市声音分类方法。
背景技术
音频无处不在,无论是自然界的风吹雨打,还是人类的牙牙学语,声音遍布世界的每一个角落。我们常常对身边的声音习以为常,有时也能够判定出声音的来源并做出合适的反应。但是,如何将人类对声音的识别能力应用在计算机上,让计算机对城市声音进行分类,这是智慧城市非常重要的话题。
与人类相比,计算机更难认识和理解音频信号。随着深度学习的发展,音频信号处理领域也出现了新的突破。将深度学习技术应用于声音信号识别上,对城市中随机出现的声音进行正确的分类,可以及时对一些突发情况做出预警或者采取措施,例如在检测到警笛声后可以自动调整红绿灯为应急车辆提供道路方便,这对智慧城市构建提供了非常好的技术支持。
本发明通过将声音数据集进行预处理,对声音的振幅和频率图形化并分析特征,然后提取音频数据特征并进行数据标准化,得到标准数据,再将经过数据处理后的训练数据集送入改进深度残差网络模型进行训练,得出改进深度残差网络声音分类模型,最后将声音测试数据集送入改进深度残差网络声音分类模型进行测试,得出分类准确率,判定声音类别。
发明内容
本发明目的在于提供一种基于改进深度残差网络的城市声音分类方法,对城市声音进行分类;通过将声音的振幅和频率图形化并分析特征然后提取其音频特征进行数据标准化得到标准数据,再将数据送入3个改进残差模块的改进深度残差网络训练模型并测试结果,得到准确率,从而达到对声音进行分类。
为了实现以上目的,本发明所采用的技术方案包括以下步骤:
步骤S1.数据预处理:将声音的振幅和频率图形化;
步骤S2.数据特征提取:对步骤S1中获得的数据提取音频特征并进行数据标准化处理,得到标准数据;
步骤S3.改进深度残差网络分类器:构建改进的深度残差网络分类器,将步骤S2中处理后的训练数据集送入设计的改进深度残差网络分类器模型,并对分类器进行训练,得到训练后的改进深度残差网络分类模型;
步骤S4.声音分类结果判定:将声音测试数据集送入训练后的改进深度残差网络声音分类器进行测试,得出声音分类结果。
所述步骤S1数据预处理包括如下步骤:
步骤S11:振幅图形化:
对振幅进行归一化处理,使其振幅的取值范围为[-1,1],表达式如公式(1)所示:
式中,x为归一化的值,xmax为所采集数据特征中最大的值,xmin为所采集数据特征中最小的值;
步骤S12:频率图形化:
频率图形化利用短时傅里叶变换进行处理,表达式如公式(2)所示
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111484910.8/2.html,转载请声明来源钻瓜专利网。