[发明专利]一种基于核极限学习机及并行化的随机森林分类系统在审
申请号: | 201711399101.0 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108154174A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 王丹;石智强;赵文兵;杜金莲;付利华;杜晓林;苏航 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N99/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行化 极限学习机 分类系统 海量数据 随机森林 单机 模型评估模块 模型训练模块 数据抽取模块 分类性能 模型优化 | ||
1.一种基于核极限学习机及并行化的随机森林分类系统,包括:单机模块和并行化模块,其中,单机模块主要针对的是非海量数据集的处理,其包含四个子模块分别是数据抽取模块、模型训练模块、模型评估模块、模型优化模块;
数据抽取模块,用于对样本集进行随机化抽取。采用Bootstrap法从N个样本中有放回地随机抽取N个样本并从F个特征中随机选取f个特征(f<<F)组成新的样本集,同时在该模块中设置数据抽取接口,可以使用自定义的数据抽取方法;
模型训练模块,用于核极限学习机的训练,采用径向基核函数与多项式核函数加权得到混合核函数作为极限学习机的核函数,同时在该模块中设置了核函数自定义接口,可以使用自定义的核函数;
模型评估模块,用于对每个基分类器的性能测试;使用样本子集训练得到混合核极限学习机模型之后,使用测试集测试每个基分类器的分类精度并排序,得到分类精度列表。
模型优化模块,用于对模型的优化,首先剔除分类精度列表中性能最差的基分类器,再结合粒子群优化算法对核参数、正则化系数、混合核权重进行调优得到优化的新基分类器代替被删除的基分类器;再次使用测试集对新基分类器进行性能测试,遍历其他基分类器依次与新基分类器的分类性能进行比较,如果与新基分类器的分类性能差别超过规定阈值,则需要使用粒子群优化算法进行优化,同时在该模块中设置了优化函数自定义接口,可以使用自定义的优化函数;
并行化模块主要针对的海量数据的处理,采用Map-Reduce计算模型对分类方法进行并行化;在每个计算节点中都采用单机模块的构造子森林,最后在驱动程序中将所有的子森林合并为随机森林模型。
2.如权利要求1所述的基于核极限学习机及并行化的随机森林分类系统,其特征在于,经过数据的抽样、模型训练、模型优化得到了随机森林分类模型之后,使用相对多数投票的组合策略决定样本数据的最后分类结果,即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个。同时设置了自定义的组合策略,可以根据不同的需要设置不同的组合策略决定样本数据的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711399101.0/1.html,转载请声明来源钻瓜专利网。