[发明专利]基于多路声学特征数据增强的声场景分类方法有效
申请号: | 202010726152.5 | 申请日: | 2020-07-25 |
公开(公告)号: | CN111833906B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 曹毅;费鸿博;刘晨;周辉 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/03 |
代理公司: | 无锡盛阳专利商标事务所(普通合伙) 32227 | 代理人: | 顾吉云;黄莹 |
地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 声学 特征 数据 增强 声场 分类 方法 | ||
1.基于多路声学特征数据增强的声场景分类方法,其包括以下步骤:
S1:采集待分类的原始音频样本信息,其中包括音频时长和采样频率,并对其进行预处理,获得待处理样本信息;
其特征在于,其还包括一下步骤:
S2:对所述待处理样本信息进行傅里叶变换处理后,输入到用于提取声学特征的滤波器,得到所述待处理样本信息对应的待分类样本声学特征;
S3:将所述待分类样本声学特征的数据输入到数据增强用特征生成器;
所述数据增强用特征生成器中,设置N种声学特征作为声场景分类模型的输入,且每一种声学特征对应分类模型的一个输入模块;所述数据增强用特征生成器的输出为:数据增强后特征向量
所述数据增强用特征生成器基于Mixup数据增强方式,对输入的所述待分类样本声学特征的数据进行特征增强操作;输入的声学特征数据经过分批处理后生成虚拟样本,然后通过迭代器将虚拟样本图层合并到数据增强后的特征图层中,得到最终的所述数据增强后特征向量;
S4:构建声场景分类模型;
基于MCNN模型构建多支路的所述声场景分类模型;
所述声场景分类模型包括:支路网络,多个所述支路网络输出后,经融合层的Concatenate合并级联处理,经主全连接层后,通过Softmax函数输出分类预测;
基于VGG网络模型构建所述声场景分类模型的每个支路网络模型;
所述支路网络模型包括:三个卷积块、一个支路全连接块;
所述卷积块包括:两个卷积层、两个BR层、一个最大池化层;
S5:训练所述声场景分类模型,得到训练好的所述声场景分类模型;
S6:将步骤S3中获得的所述数据增强后特征向量输入到训练好的所述声场景分类模型中,进行场景分类筛选,输出对应的最终分类预测结果。
2.根据权利要求1所述基于多路声学特征数据增强的声场景分类方法,其特征在于:步骤S2中,所述待分类样本声学特征的数据结构为二维向量,第一维数据表征音频样本的帧数信息,第二维数据表征音频样本经过特定的声学特征提取处理后的特征信息。
3.根据权利要求1所述基于多路声学特征数据增强的声场景分类方法,其特征在于:步骤S2中,所述滤波器提取所述待分类样本声学特征的方案包括:
设:所述待分类样本声学特征为N路,则有:
N=1时的声学特征选取方案如下:
(1)[128维Log-mel语谱图]
(2)[128维Gamma-tone语谱图]
(3)[174维mfcc]
(4)[174维gfcc]
N=2时的声学特征组合方案如下:
(1)[128维Log-mel语谱图,174维mfcc]
(2)[128维Log-mel语谱图,128维Gamma-tone语谱图]
(3)[128维Log-mel语谱图,128维gfcc]
N=3时的声学特征组合方案如下:
(1)[128维Log-mel语谱图,174维mfcc,128维Fbank]
(2)[128维Log-mel语谱图,174维mfcc,128维Gamma-tone语谱图]
(3)[128维Log-mel语谱图,174维mfcc,128维gfcc]。
4.根据权利要求1所述基于多路声学特征数据增强的声场景分类方法,其特征在于:步骤S3中,N种声学特征经过数据增强后的所述数据增强后特征向量表达式为:
其中:
j=i+1,N、i、j为正整数,λ∈(0,1),xNi表示第N种声学特征的第i批数据,xNj表示第N种声学特征的第j批数据,表示生成的第N种声学特征数据,yi表示第i批数据的标签,yj表示第j批数据的标签,表示生成的声学特征对应的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010726152.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置