[发明专利]基于粒子群优化的双准确度加权随机森林算法在审

专利信息
申请号: 202010223029.1 申请日: 2020-03-26
公开(公告)号: CN111428790A 公开(公告)日: 2020-07-17
发明(设计)人: 张文波;冯永新;郝颖;付立冬;王晶 申请(专利权)人: 沈阳理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/00
代理公司: 常州市科谊专利代理事务所 32225 代理人: 孙彬
地址: 110159 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 粒子 优化 准确度 加权 随机 森林 算法
【说明书】:

发明公开了基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:S1:确定原始数据集D、随机确定决策树棵数K、决策树的特征个数m,其中,m≤n,确定预测试样本率X;S2:使用Bootstrap采样法对训练数据集Sk采样,获得袋外数据Ok训练子Tk;S3:根据C4.5算法生成第k棵决策树,并计算该决策树的最终权重;S4:重复S2和S3,直至决策树棵数为K时停止;S5:使用决策树集合对测试数据进行测试进行分;S6:将S5得到的准确率作为粒子群的适应度值,采用粒子群优化算法进行迭代优化,并与历史分类准确率进行对比,最终选出最优模型参数。本发明提高了随机森林模型的准确率;同时避免了凭借经验选择参数导致的算法准确率降低的问题,进一步改善了算法的性能。

技术领域

本发明涉及基于粒子群优化的双准确度加权随机森林算法,属于数据处理领域。

背景技术

随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体平均投票来决定最终结果的。这种平均投票方式可能导致生长较差的决策树影响最终分类结果,且易出现“平票”的情况。传统随机森林算法通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。但由于训练样本和属性的随机性以及决策树棵树的不确定性导致实际效果并不理想。因此,设计一种改进的加权随机森林算法具有重要意义。

发明内容

为了克服现有技术中的不足,本发明提出了基于粒子群优化的双准确度加权随机森林算法,该算法比传统随机森林算法具有更高的准确性,并且大幅度降低了出现“平票”的可能性。

本发明中主要采用的技术方案为:

基于粒子群优化的双准确度加权随机森林算法,包括以下步骤:

Step1:确定原始数据集D={(x1,y1),(x2,y2),...(xN,yN)},其中,为输入实例,n为总特征个数,yi∈{Y1,Y2,...,YN}为类标记,i=1,2,...,N,N为样本容量,随机确定决策树棵数K、决策数的特征数m(m≤n)、确定预测试样本率X,所述预测试样本率为预测试数据集个数与数据集总数之比;

Step2:根据预测试样本率X对原始数据集D进行划分,生成第k棵决策树对应的预测试数据集Pk以及训练数据集Sk,并使用Bootstrap采样法对训练数据集Sk采样,获得袋外数据Ok,训练子集Tk

Step3:从n个特征中随机选取m个特征属性作为节点分类特征,Tk作为训练数据,根据C4.5算法生成第k棵决策树;并使用该决策树测试Ok、Pk数据集,根据公式(1)和公式(2)计算该决策树的权重wOk和wPk,根据公式(3)计算该决策树的最终权重wk

Step4:重复Step2和Step3,直至决策树棵数为K时停止,获得决策树集合以及每棵决策树的权重;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳理工大学,未经沈阳理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010223029.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top