[发明专利]一种基于过滤器和RF-RFE算法的特征选择方法在审
申请号: | 202110620273.6 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113360730A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 苗世迪;胡晓慧;程可;李静 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/906;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 过滤器 rf rfe 算法 特征 选择 方法 | ||
1.一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理。
步骤2:冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除。
步骤3:特征选择模块,采用RF-RFE方法对冗余特征处理后剩余的特征进行特征选择。
2.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤1中,数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体步骤为:
步骤1-1删除数据中含有缺失值的样本;
步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理,处理公式为:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数。
3.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤2中冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除,具体步骤为:
步骤2-1计算每个特征的信息增益值,其计算公式为:
IG=H(Class)+H(Attibute)-H(Class,Attibute)
其中,H是由定义的香农熵,P(Xi)为概率函数;
步骤2-2根据计算的信息增益值对特征进行排序;
步骤2-3采用Pearson相关性系数计算两两特征之间的相关性,设fx和fy为预处理后的数据集合中除目标变量外任意的两个特征,fx={fx1,fx2...fxn},fy={fy1,fy2...fyn},n为预处理后的数据集合所含样本的个数,特征fx和特征fy之间的Pearson相关系数的绝对值公式为:
其中,和为对应特征的样本均值,|ρxy|的值代表特征fx和fy之间的相关程度;
步骤2-4结合步骤2-2的特征排序和步骤2-3计算的特征之间的Pearson相关系数,将Pearson相关系数超过0.7的两个特征中信息增益值较小的特征删除。
4.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤3中,特征选择模块,采用RF-RFE方法对冗余特征处理后剩余的特征进行特征选择,具体步骤为:
步骤3-1将冗余特征删除后剩余的特征子集设为初始特征子集X;
步骤3-2更新含特征子集X的数据集D;
步骤3-3将数据集D划分为训练集T和测试集S;
步骤3-4使用训练集T建立RF模型,计算每个特征的基尼指数作为特征重要性,设特征有V个可能的取值特征的基尼指数计算公式为:
其中,Gini(TV)是由定义的基尼值,pk(k=1,2...,|y|)为训练集T中第k类样本所占的比例;
步骤3-5计算训练集T建立的RF模型在测试集S上的准确率,准确率计算公式为:
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤3-6从特征子集中删除基尼指数最小的一个特征,更新特征子集X;
步骤3-7重复步骤3-2、步骤3-3、步骤3-4步骤3-5和步骤3-6,直到特征子集X数量为0;
步骤3-8选取在RF模型上准确率最高的特征子集数量和对应的特征作为最终的特征子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110620273.6/1.html,转载请声明来源钻瓜专利网。
- 具有磁电效应的复合薄膜异质结及其制备方法
- 基于集成学习思想的SVM-RFE导联优化方法
- 一种基于FeGa-RFe<sub>2</sub>磁晶各向异性补偿原理设计的新型磁致伸缩材料及其制备方法
- 一种基于SVM‑RFE特征选择的假指纹检测方法
- 一种新型陶瓷电容器材料Ba<sub>4</sub>RFe<sub>0.5</sub>Nb<sub>9.5</sub>O<sub>30</sub>(R=La,Eu,Gd)及其制备方法
- 一种接入网网络架构
- 一种基于SVM-RFE-MRMR算法的阿兹海默症MRI图像分类方法
- 基于车辆相机图像处理来生成和利用道路摩擦估计值的方法和系统
- 一种大轴重货运列车用车轴及其热处理工艺和生产工艺
- 一种电力系统运行方式数据特征两阶段选择方法