[发明专利]一种基于卷积神经网络和随机森林的音频分类方法在审

申请号：	201810037337.8	申请日：	2018-01-16
公开（公告）号：	CN108122562A	公开（公告）日：	2018-06-05
发明（设计）人：	彭德中;付炜	申请（专利权）人：	四川大学
主分类号：	G10L25/54	分类号：	G10L25/54;G10L25/45;G10L25/30;G10L25/27;G10L25/18;G06N3/04;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	610065 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于卷积神经网络和随机森林的音频分类方法，该方法包括：S1:对原始音频数据集进行频谱分析，包括分段、分帧、加窗、傅里叶变换，得到原始音频文件对应的频谱图；S2:以得到的频谱图作为输入，训练一个卷积神经网络特征提取器；S3:去掉卷积神经网络的softmax层，提取频谱图的高层特征；S4:利用提取的频谱图高层特征训练随机森林分类器；S5:基于卷积神经网络提取的高层特征，利用训练好的随机森林进行音频分类。本发明基于卷积神经网络做特征提取，避免了手动构造提取特征的繁琐过程，同时针对采用softmax作为卷积神经网络分类器导致泛化能力不足的问题，采用随机森林替换掉卷积神经网络的softmax层，作为最终的分类器。在测试过程中取得了较高的准确率和召回率。
搜索关键词：	卷积神经网络随机森林频谱图高层特征音频分类分类器随机森林分类器原始音频数据原始音频文件傅里叶变换特征提取器测试过程繁琐过程能力不足频谱分析手动构造特征提取提取特征准确率分帧加窗分段替换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于卷积神经网络和随机森林的音频分类方法，其特征包括如下步骤：步骤1:对原始音频数据集进行频谱分析，首先将长音频文件分为等长的若干段，每段音频对应相同的标签，然后对每段音频进行分帧、加窗、傅里叶变换，得到每段音频的频谱图，作为新的训练集的一个样本；步骤2:利用步骤1得到的所有频谱图及其对应的标签，训练一个改进的卷积神经网络，该网络具有14层；步骤3:去掉步骤2学习到的卷积神经网络的softmax层，然后再用卷积神经网络提取所有频谱图的高层特征；步骤4:利用步骤3提取的频谱图的高层特征训练随机森林分类器，采用Gini不纯度作为决策树特征选择的准则；步骤5:将待分类的音频进行步骤1中的频谱分析得到频谱图，然后用步骤3中去掉softmax层的卷积神经网络提取频谱图高层特征，最后将提取的高层特征输入到步骤4中训练好的随机森林分类器进行音频分类，以投票的方式得到最终的分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810037337.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于电子设备的口语语音测评方法及电子设备
下一篇：提高语音唤醒率及修正DOA的方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积神经网络和随机森林的音频分类方法在审

专利文献下载