[发明专利]基于网络模型融合的声场景分类方法有效

申请号：	201910845467.9	申请日：	2019-09-06
公开（公告）号：	CN110600054B	公开（公告）日：	2021-09-21
发明（设计）人：	唐闺臣;梁瑞宇;王青云;包永强;冯月芹;李明	申请（专利权）人：	南京工程学院
主分类号：	G10L25/30	分类号：	G10L25/30;G10L25/24;G10L25/51;G06N3/08;G06N3/04
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	徐激波
地址：	211167 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于网络模型融合的声场景分类方法，并通过声道分离方式和音频切割等方式构造出多种不同的输入特征，提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征，分别训练对应的多种不同的卷积神经网络模型，最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征，构造了单双两种通道的卷积神经网络，最终生成独特的模型融合结构，能够获得更加丰富与立体的信息，有效提高了不同的声场景分类识别率和鲁棒性，具有良好的应用前景。
搜索关键词：	基于网络模型融合声场分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网络模型融合的声场景分类方法，其特征在于，包括以下步骤：/n步骤A、对采集到的声场景数据进行预处理，获得音频数据样本；/n步骤B、对步骤A中的预处理后的音频数据样本，采用声道分离方式和音频切割方式分成N组音频数据，并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征，并计算梅尔频谱特征一阶及二阶差分特征，构造成N组不同的输入特征；/n步骤C、针对步骤B中N组不同的输入特征，设计N种不同结构的CNN模型作为弱分类器并训练各模型；/n步骤D、采用支撑向量机为强分类器，将步骤C中的N种模型的输出结果堆叠作为支撑向量机的输入特征，训练融合后的新模型，新模型的分类结果作为声场景分类的最终结果。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工程学院，未经南京工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910845467.9/，转载请声明来源钻瓜专利网。

上一篇：一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
下一篇：一种使用旋律提取与语音合成技术的歌声分离方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于网络模型融合的声场景分类方法有效

专利文献下载