[发明专利]基于多路声学特征数据增强的声场景分类方法有效

申请号：	202010726152.5	申请日：	2020-07-25
公开（公告）号：	CN111833906B	公开（公告）日：	2022-09-30
发明（设计）人：	曹毅;费鸿博;刘晨;周辉	申请（专利权）人：	江南大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/30;G10L25/03
代理公司：	无锡盛阳专利商标事务所(普通合伙) 32227	代理人：	顾吉云;黄莹
地址：	214000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于声学特征数据增强声场分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供基于多路声学特征数据增强的声场景分类方法，其提高了声场景分类用分类器的准确率，同时提高了模型的泛化能力，使其能够以稳定的分类准确率应用在更多的场景中。本发明技术方案中，基于Mixup数据增强方式实现数据增强用特征生成器，同时生成多种声学特征，基于MCNN模型构建了多支路的声场景分类模型，通过多路声学特征并行输入分类器进行分类操作，使得多种声学特征相互补充提高了分类器的分类精度。

技术领域

本发明涉及声场景分类技术领域，具体为基于多路声学特征数据增强的声场景分类方法。

背景技术

现代社会中，声场景分类在许多领域中应用，如城市噪音监控，消防预警，健康状况检测等方面。声学场景分类旨在将采集到的声音按照预先定义的类别进行分类，以供后续处理。现有的声场景分类计数中，已经有科研人员做了多方面的研究；比如申请号为201910845467.9的发明专利公开一种基于网络模型融合的声场景分类方法，其重点在于模型的融合，而在输入端只采用了两种声学特征，以单输入的方式进行训练，导致其声学特征互补能力并不显著，分类精度不足的模型在实际应用中，会导致分类结果不准确；申请号为201910201430.2的发明专利公开一种基于数据增强的声场景辨识方法，其数据增强方法是基于混合增强方法提出的，但其提取的声学特征较为单一，不能探究多种声学特征对模型分类能力的影响；泛化能力不强的模型在实际应用中，会出现分类准确率不稳定，或者应用场景单一的问题。

发明内容

为了解决现有技术中声场景分类存在的分类精度不足、泛化能力不够，导致在实际应用中分类结果不准确、应用场景单一的问题，本发明提供基于多路声学特征数据增强的声场景分类方法，其提高了声场景分类用分类器的准确率，同时提高了模型的泛化能力，使其能够以稳定的分类准确率应用在更多的场景中。

本发明的技术方案是这样的：基于多路声学特征数据增强的声场景分类方法，其包括以下步骤：

S1：采集待分类的原始音频样本信息，其中包括音频时长和采样频率，并对其进行预处理，获得待处理样本信息；

其特征在于，其还包括一下步骤：

S2：对所述待处理样本信息进行傅里叶变换处理后，输入到用于提取声学特征的滤波器，得到所述待处理样本信息对应的待分类样本声学特征；

S3：将所述待分类样本声学特征的数据输入到数据增强用特征生成器；

所述数据增强用特征生成器中，设置N种声学特征作为声场景分类模型的输入，且每一种声学特征对应分类模型的一个输入模块；所述数据增强用特征生成器的输出为：数据增强后特征向量

所述数据增强用特征生成器基于Mixup数据增强方式，对输入的所述待分类样本声学特征的数据进行特征增强操作；输入的声学特征数据经过分批处理后生成虚拟样本，然后通过迭代器将虚拟样本图层合并到数据增强后的特征图层中，得到最终的所述数据增强后特征向量；

S4：构建声场景分类模型；

基于MCNN模型构建多支路的所述声场景分类模型；

所述声场景分类模型包括：支路网络，多个所述支路网络输出后，经融合层的Concatenate合并级联处理，经主全连接层后，通过Softmax函数输出分类预测；