[发明专利]一种基于过滤器和RF-RFE算法的特征选择方法在审
申请号: | 202110620273.6 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113360730A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 苗世迪;胡晓慧;程可;李静 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/906;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 过滤器 rf rfe 算法 特征 选择 方法 | ||
本发明涉及一种基于过滤器和RF‑RFE算法的特征选择方法,该方法包括以下步骤:数据预处理模块,对完整数据集进行缺失值处理、离散化处理;冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除;特征选择模块,采用RF‑RFE方法对冗余特征处理后剩余的特征进行特征选择,本发明使用过滤器方法中的相关性和信息增益相结合来删除冗余特征,采用递归特征消除(RFE)方法结合随机林来度量变量的重要性,RF‑RFE在寻找特征子集方面具有很高的识别能力,并且不需要调整参数就可以产生竞争性结果,在考虑特征之间的冗余性同时也考虑了特征选择的高效性。
技术领域:
本发明涉及数据分类的技术,尤其是涉及一种基于过滤器和RF-RFE算法的特征选择方法,该方法在特征选择方面有着很好的应用。
背景技术:
特征选择(Feature Selection)也称特征子集选择,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,目前用于特征选择方法主要有过滤器、包装器和嵌入式方法三类。
过滤器方法(FilterMethods)是最常用的特征选择方法,通常是针对单变量的,它会假定每个特征都独立于其他特征,最著名的过滤器方法包括卡方检验、相关系数和信息增益指标,但是,这种滤波方法会导致相关特征的丢失,为了克服这一点,可以应用包装器方法(Wrapper Methods)来评估特定特征集的重要性,通过训练和测试一个特定的分类模型,使用搜索过程在可能的特征子集空间中生成和评估不同的特征子集,目前常用的特征子集的搜索策略为启发式搜索和随机式搜索,经典的算法包括顺序正向选择(SFS)、顺序反向选择(SBS)和递归消除法(RFE),用于识别最相关输入变量的常用分类算法包括朴素贝叶斯、支持向量、随机森林、AdaBoost和极端学习机,这些分类技术与搜索算法相结合,通过基于分类器性能的迭代来找到最佳特征数和相应的特征。
随着大数据时代的到来,数据的维度也在不断增加,数据集的高维性增加了计算和分析的复杂性,为了解决这一问题,本发明采用一种基于过滤器和RF-RFE算法的特征选择方法来降低数据特征之间的冗余度和复杂性。
发明内容:
为了解决数据集特征选择的问题,本发明公开了一种基于过滤器和RF-RFE算法的特征选择方法。
为此,本发明提供了如下技术方案:
1.一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理。
步骤2:冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除。
步骤3:特征选择模块,采用RF-RFE方法对冗余特征处理后剩余的特征进行特征选择。
2.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤1中,数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体步骤为:
步骤1-1删除数据中含有缺失值的样本;
步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理,处理公式为:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110620273.6/2.html,转载请声明来源钻瓜专利网。
- 具有磁电效应的复合薄膜异质结及其制备方法
- 基于集成学习思想的SVM-RFE导联优化方法
- 一种基于FeGa-RFe<sub>2</sub>磁晶各向异性补偿原理设计的新型磁致伸缩材料及其制备方法
- 一种基于SVM‑RFE特征选择的假指纹检测方法
- 一种新型陶瓷电容器材料Ba<sub>4</sub>RFe<sub>0.5</sub>Nb<sub>9.5</sub>O<sub>30</sub>(R=La,Eu,Gd)及其制备方法
- 一种接入网网络架构
- 一种基于SVM-RFE-MRMR算法的阿兹海默症MRI图像分类方法
- 基于车辆相机图像处理来生成和利用道路摩擦估计值的方法和系统
- 一种大轴重货运列车用车轴及其热处理工艺和生产工艺
- 一种电力系统运行方式数据特征两阶段选择方法