[发明专利]基于加权皮尔逊相关系数并结合特征筛选的分类算法在审
申请号: | 202110774460.X | 申请日: | 2021-07-08 |
公开(公告)号: | CN113657441A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 周红芳;安蕾 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 戴媛 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 皮尔逊 相关系数 结合 特征 筛选 分类 算法 | ||
本发明公开了基于加权皮尔逊相关系数并结合特征筛选的分类算法,首先对原始数据进行预处理,并将预处理后的数据集使用IMPROVE_FCBF算法进行特征筛选;然后将进行特征筛选之后的数据使用十折交叉验证方法划分为训练集和测试集,在训练集上使用基于加权皮尔逊相关系数的决策树算法构造决策树;最后使用构造好的决策树模型对测试数据进行分类得出结果,使用评估指标准确率、召回率、宏观F1值和决策树的构造时间对决策树分类模型进行评估。基于以上评价指标,本发明相比其他决策树分类算法均有不同程度的提升与改进。
技术领域
本发明属于数据挖掘技术领域,涉及基于加权皮尔逊相关系数并结合特征筛选的分类算法。
背景技术
移动互联网时代,面对海量的数据,传统的数据分析是无法对其进行处理的,我们必须要用一种新的方法来处理它们,数据挖掘技术正是处理大量数据最好的工具之一。在数据挖掘技术领域中,分类问题尤为重要,其广泛应用在电信、银行、超市等各种金融商业活动中。分类的过程可以分为两步:第一步,对已知样本数据进行分析与计算,得出一个函数/模型;第二步,使用得出的函数/模型预测其他未知数据的类别。目前,相关的分类算法有很多种,如:决策树算法、遗传算法、聚类算法、神经网络算法等。其中,决策树分类算法因其具有可解释性强、速度快以及准确率高等优点,成为最通用的分类算法之一。常见的决策树分类算法有:ID3算法、C4.5算法、CART算法和PCC-Tree算法等。
传统的决策树分类算法在处理小规模数据集时效果不错,但由于内存限制、时间复杂度和数据复杂度各方面的影响,导致这些算法处理大规模数据集时的时间复杂度较高。因此,如何提高构造决策树的速度就显得至关重要。
发明内容
本发明的目的是提供基于加权皮尔逊相关系数并结合特征筛选的分类算法,具有能够有效地提高决策树模型的分类准确率的特点。
本发明所采用的技术方案是,基于加权皮尔逊相关系数并结合特征筛选的分类算法,具体按照以下步骤实施:
步骤1、对包含类别数目为m的类别集合C={c1,c2,...cm},m=1,2,3...m,特征数为n的特征集F={f1,f2,f3,...fn},n=1,2,3,...n的数据集进行预处理;
步骤2、对经过预处理的数据集使用IMPROVE_FCBF算法特征筛选;
步骤3、将经过特征筛选后的数据集划分为训练数据和测试数据;
步骤4、在训练集上使用基于加权皮尔逊相关系数的决策树分类方法构造决策树模型;
步骤5、使用建立的决策树模型对测试数据进行测试,并使用准确率、召回率、宏观F1以及构造决策树所需时间作为评估指标对实验结果进行评估。
本发明的特点还在于:
步骤1中预处理具体为,首先对数据集中的连续型特征值使用等宽法进行离散化处理;接着将字符串型特征值转换为标称数值型;然后将缺失特征值使用众数补全;最后将数据集中的字符串类别值转换为标称数值型。
步骤2具体按照以下步骤实施:
步骤2.1、初始化Slist为空集;
步骤2.2、计算每个特征fi(i=1,…,n)与类别C之间对称不确定性SU(fi,C)值,以及每两个特征之间的对称不确定性度量SU(fi,fj)(i,j=1,…,n且i≠j);计算两个变量X和Y的SU值的公式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110774460.X/2.html,转载请声明来源钻瓜专利网。