[发明专利]基于粒子群优化的双准确度加权随机森林算法在审
申请号: | 202010223029.1 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111428790A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 张文波;冯永新;郝颖;付立冬;王晶 | 申请(专利权)人: | 沈阳理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
代理公司: | 常州市科谊专利代理事务所 32225 | 代理人: | 孙彬 |
地址: | 110159 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒子 优化 准确度 加权 随机 森林 算法 | ||
本发明公开了基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:S1:确定原始数据集D、随机确定决策树棵数
技术领域
本发明涉及基于粒子群优化的双准确度加权随机森林算法,属于数据处理领域。
背景技术
随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体平均投票来决定最终结果的。这种平均投票方式可能导致生长较差的决策树影响最终分类结果,且易出现“平票”的情况。传统随机森林算法通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。但由于训练样本和属性的随机性以及决策树棵树的不确定性导致实际效果并不理想。因此,设计一种改进的加权随机森林算法具有重要意义。
发明内容
为了克服现有技术中的不足,本发明提出了基于粒子群优化的双准确度加权随机森林算法,该算法比传统随机森林算法具有更高的准确性,并且大幅度降低了出现“平票”的可能性。
本发明中主要采用的技术方案为:
基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:
Step1:确定原始数据集D={(x1,y1),(x2,y2),...(xN,yN)},其中,为输入实例,n为总特征个数,yi∈{Y1,Y2,...,YN}为类标记,i=1,2,...,N,N为样本容量,随机确定决策树棵数K、决策数的特征数m(m≤n)、确定预测试样本率X,所述预测试样本率为预测试数据集个数与数据集总数之比;
Step2:根据预测试样本率X对原始数据集D进行划分,生成第k棵决策树对应的预测试数据集Pk以及训练数据集Sk,并使用Bootstrap采样法对训练数据集Sk采样,获得袋外数据Ok,训练子集Tk;
Step3:从n个特征中随机选取m个特征属性作为节点分类特征,Tk作为训练数据,根据C4.5算法生成第k棵决策树;并使用该决策树测试Ok、Pk数据集,根据公式(1)和公式(2)计算该决策树的权重wOk和wPk,根据公式(3)计算该决策树的最终权重wk:
Step4:重复Step2和Step3,直至决策树棵数为K时停止,获得决策树集合以及每棵决策树的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳理工大学,未经沈阳理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010223029.1/2.html,转载请声明来源钻瓜专利网。