[发明专利]基于粒子群优化的双准确度加权随机森林算法在审

申请号：	202010223029.1	申请日：	2020-03-26
公开（公告）号：	CN111428790A	公开（公告）日：	2020-07-17
发明（设计）人：	张文波;冯永新;郝颖;付立冬;王晶	申请（专利权）人：	沈阳理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/00
代理公司：	常州市科谊专利代理事务所 32225	代理人：	孙彬
地址：	110159 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于粒子优化准确度加权随机森林算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于粒子群优化的双准确度加权随机森林算法，包括以下步骤：S1：确定原始数据集D、随机确定决策树棵数K、决策树的特征个数m，其中，m≤n，确定预测试样本率X；S2：使用Bootstrap采样法对训练数据集S_k采样，获得袋外数据O_k训练子T_k；S3：根据C4.5算法生成第k棵决策树，并计算该决策树的最终权重；S4：重复S2和S3，直至决策树棵数为K时停止；S5：使用决策树集合对测试数据进行测试进行分；S6：将S5得到的准确率作为粒子群的适应度值，采用粒子群优化算法进行迭代优化，并与历史分类准确率进行对比，最终选出最优模型参数。本发明提高了随机森林模型的准确率；同时避免了凭借经验选择参数导致的算法准确率降低的问题，进一步改善了算法的性能。

技术领域

本发明涉及基于粒子群优化的双准确度加权随机森林算法，属于数据处理领域。

背景技术

随机森林是一种有监督的集成学习分类技术，其模型由一组决策树分类器组成，所述模型对数据的分类是通过单个决策树的分类结果进行集体平均投票来决定最终结果的。这种平均投票方式可能导致生长较差的决策树影响最终分类结果，且易出现“平票”的情况。传统随机森林算法通过对训练样本空间和属性空间注入随机性，充分保证了每个决策树之间的独立性和差异性，很好地克服了决策树过拟合问题，同时对噪声和异常值也有较好的鲁棒性。但由于训练样本和属性的随机性以及决策树棵树的不确定性导致实际效果并不理想。因此，设计一种改进的加权随机森林算法具有重要意义。

发明内容

为了克服现有技术中的不足，本发明提出了基于粒子群优化的双准确度加权随机森林算法，该算法比传统随机森林算法具有更高的准确性，并且大幅度降低了出现“平票”的可能性。

本发明中主要采用的技术方案为：

基于粒子群优化的双准确度加权随机森林算法，包括以下步骤：

Step1：确定原始数据集D＝{(x₁,y₁),(x₂,y₂),...(x_N,y_N)}，其中，为输入实例，n为总特征个数，y_i∈{Y₁,Y₂,...,Y_N}为类标记，i＝1,2,...,N，N为样本容量，随机确定决策树棵数K、决策数的特征数m(m≤n)、确定预测试样本率X，所述预测试样本率为预测试数据集个数与数据集总数之比；

Step2：根据预测试样本率X对原始数据集D进行划分，生成第k棵决策树对应的预测试数据集P_k以及训练数据集S_k，并使用Bootstrap采样法对训练数据集S_k采样，获得袋外数据O_k，训练子集T_k；

Step3：从n个特征中随机选取m个特征属性作为节点分类特征，T_k作为训练数据，根据C4.5算法生成第k棵决策树；并使用该决策树测试O_k、P_k数据集，根据公式(1)和公式(2)计算该决策树的权重w_Ok和w_Pk，根据公式(3)计算该决策树的最终权重w_k：

Step4：重复Step2和Step3，直至决策树棵数为K时停止，获得决策树集合以及每棵决策树的权重；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳理工大学，未经沈阳理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010223029.1/2.html，转载请声明来源钻瓜专利网。

上一篇：锅用抗菌耐蚀铸铁材料和抗菌耐蚀铸铁锅制造工艺
下一篇：一种基于零知识证明的工业环境移动充电设备的认证策略

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于粒子群优化的双准确度加权随机森林算法在审

专利文献下载