[发明专利]一种基于过滤器和RF-RFE算法的特征选择方法在审

专利信息
申请号: 202110620273.6 申请日: 2021-06-03
公开(公告)号: CN113360730A 公开(公告)日: 2021-09-07
发明(设计)人: 苗世迪;胡晓慧;程可;李静 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F16/9035 分类号: G06F16/9035;G06F16/906;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙江省哈*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 过滤器 rf rfe 算法 特征 选择 方法
【权利要求书】:

1.一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,该方法包括以下步骤:

步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理。

步骤2:冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除。

步骤3:特征选择模块,采用RF-RFE方法对冗余特征处理后剩余的特征进行特征选择。

2.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤1中,数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体步骤为:

步骤1-1删除数据中含有缺失值的样本;

步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理,处理公式为:

其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数。

3.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤2中冗余特征处理模块,使用信息增益和相关性相结合的过滤器方法对冗余特征进行删除,具体步骤为:

步骤2-1计算每个特征的信息增益值,其计算公式为:

IG=H(Class)+H(Attibute)-H(Class,Attibute)

其中,H是由定义的香农熵,P(Xi)为概率函数;

步骤2-2根据计算的信息增益值对特征进行排序;

步骤2-3采用Pearson相关性系数计算两两特征之间的相关性,设fx和fy为预处理后的数据集合中除目标变量外任意的两个特征,fx={fx1,fx2...fxn},fy={fy1,fy2...fyn},n为预处理后的数据集合所含样本的个数,特征fx和特征fy之间的Pearson相关系数的绝对值公式为:

其中,和为对应特征的样本均值,|ρxy|的值代表特征fx和fy之间的相关程度;

步骤2-4结合步骤2-2的特征排序和步骤2-3计算的特征之间的Pearson相关系数,将Pearson相关系数超过0.7的两个特征中信息增益值较小的特征删除。

4.根据权利要求1所述的一种基于过滤器和RF-RFE算法的特征选择方法,其特征在于,所述步骤3中,特征选择模块,采用RF-RFE方法对冗余特征处理后剩余的特征进行特征选择,具体步骤为:

步骤3-1将冗余特征删除后剩余的特征子集设为初始特征子集X;

步骤3-2更新含特征子集X的数据集D;

步骤3-3将数据集D划分为训练集T和测试集S;

步骤3-4使用训练集T建立RF模型,计算每个特征的基尼指数作为特征重要性,设特征有V个可能的取值特征的基尼指数计算公式为:

其中,Gini(TV)是由定义的基尼值,pk(k=1,2...,|y|)为训练集T中第k类样本所占的比例;

步骤3-5计算训练集T建立的RF模型在测试集S上的准确率,准确率计算公式为:

其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;

步骤3-6从特征子集中删除基尼指数最小的一个特征,更新特征子集X;

步骤3-7重复步骤3-2、步骤3-3、步骤3-4步骤3-5和步骤3-6,直到特征子集X数量为0;

步骤3-8选取在RF模型上准确率最高的特征子集数量和对应的特征作为最终的特征子集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110620273.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top