[发明专利]一种基于核极限学习机及并行化的随机森林分类系统在审
申请号: | 201711399101.0 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108154174A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 王丹;石智强;赵文兵;杜金莲;付利华;杜晓林;苏航 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N99/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行化 极限学习机 分类系统 海量数据 随机森林 单机 模型评估模块 模型训练模块 数据抽取模块 分类性能 模型优化 | ||
本发明公开一种基于核极限学习机及并行化的随机森林分类系统,包括:单机模块和并行化模块,其中,单机模块主要针对的是非海量数据集的处理,其包含四个子模块分别是数据抽取模块、模型训练模块、模型评估模块、模型优化模块。采用本发明的技术方案,不仅可以支持海量数据的处理,而且能够提高对数据的分类性能。
技术领域
本发明属于计算机软件领域,涉及一种基于核极限学习机及并行化的随机森林分类系统。
背景技术
随着人工智能的发展,机器学习技术作为人工智能的核心技术变得越来越重要。机器学习技术专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。经过半个世纪的发展,机器学习算法层出不穷,从上世纪的神经网络到最近几年发展迅速的深度学习,还有支持向量机(SVM)、决策树、朴素贝叶斯分类器等算法,这些算法在医疗、金融、教育、工业等诸多领域有着广泛的需求和应用。
调查显示,分类算法使用最广泛,成为研究人员的研究热点。从研究人员在不同领域利用不同的分类模型对数据分类的结果上显示,基于SVM和神经网络的模型表现出较好的分类性能。但是仍然存在如下一些问题。第一,对于SVM和神经网络,很典型的一个难题是模型的参数选择问题,参数的选择对分类结果有很大的影响,而且参数的选择没有统一的标准和理论指导;第二,已存在的很多方法都采用单分类模型,分类性能往往会受到单分类器性能的限制而达到瓶颈,第三,典型人工神经网络模型复杂且训练速度慢。
极限学习机(ELM)比SVM和神经网络具有更优的性能,它的优点在于只含有一个隐藏层,输入层与隐藏层的网络权重值和偏倚值随机产生,而隐藏层和输出层之间的输出权重直接计算求出,不需要迭代调节网络权重,避免了梯度下降法产生的局部极值、学习时间长及学习率低的影响等问题,因此训练速度非常快。但是,由于极限学习机的隐藏层节点数目是随机给定的,而实际实验显示隐藏层节点数目的选取很大程度上决定了神经网络的分类精度是否可最优。换言之,就是极限学习机的神经元数目直接关系到神经网络的系统逼近与泛化性能。随机产生输入层与隐藏层的网络权重值和偏倚值导致极限学习机对未在训练集中出现的样本泛化能力差、输出结果不稳定等缺点,需要大量的隐藏层节点才能达到理想的精度。为了进一步提高极限学习机的泛化能力和稳定性,黄广斌等人在极限学习机中引入核函数,形成核极限学习机(KELM),避免了随机产生的输入权重和偏倚值的问题,使极限学习机的泛化能力更强,更稳定。同时,我们也发现,目前大多数的预测分类模型在医学、金融等领域中还不能完全摆脱人工干预,因为分类精度不够高。如果充分利用海量的数据支持可以提高分类精度,特别是对神经网络来说,数据规模越大,神经网络性能就越强。但是,单机是无法处理海量数据的,因此,还要进一步对分类系统进行并行化来解决能够处理海量数据的问题。
随机森林算法是一种用于分类,回归和其他任务的集成学习方法,它由多个弱基分类器组成。它在运算量没有显著增加的前提下提高了预测精度。它对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。
综上,鉴于核极限学习机具有比传统的SVM、ELM、神经网络训练速度快、泛化性能好等优点,且随机森林算法不但能够打破单个分类器性能瓶颈问题,而且在处理高维度数据上具有训练速度快等优点。所以本发明提出采用核极限学习机作为随机森林算法的基分类器,使其不仅可以提高核极限学习机的泛化性能,而且易于并行化,以更好地解决单机不能处理海量数据的问题。考虑到基于随机森林算法的分类方法得到更高分类精度的充要条件是基分类器不仅需要分类性能好且基分类器之间应存在差异性。因此,本发明通过采用排序加粒子群优化的方法提高基分类器的分类性能,并使用Bootstrap采样样本集和随机选取特征子集提高基分类器差异化和训练速度,以满足它的充要条件。传统上使用单机多线程的方法对程序进行并行化,但是,对于海量数据来说单机多线程的方法依旧不可行,需要使用多机进行并行化。因此,本发明采用Map-Reduce计算模型对系统进行多机并行化。
发明内容
本发明的内容:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711399101.0/2.html,转载请声明来源钻瓜专利网。