[发明专利]一种特征子集的选取方法、装置及存储介质在审
| 申请号: | 202211629007.0 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116186507A | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 刘美;吴斌鑫;周正南 | 申请(专利权)人: | 广东石油化工学院 |
| 主分类号: | G06F18/2113 | 分类号: | G06F18/2113;G06F18/25;G06F18/2431;G06N3/0442 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
| 地址: | 525000 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特征 子集 选取 方法 装置 存储 介质 | ||
1.一种特征子集的选取方法,其特征在于,包括:
获取高维特征数据;
对所述高维特征数据进行处理,得到目标随机森林模型,并基于所述目标随机森林模型的分析处理,得到特征重要性列表;
利用Spearman相关性对所述高维特征数据进行分析,得到特征互相关矩阵;
根据滑动窗口法,对各特征在所述特征互相关矩阵中的所在列进行处理,建立各特征预测数据集;
根据所述各特征预测数据集得到目标GRU模型,并基于所述目标GRU模型的分析处理,得到各特征拟合度量;
对所述特征重要性列表、所述特征互相关矩阵和各特征拟合度量进行特征关系型融合,得到各特征总体评价值;
不断对各特征总体评价值进行特征排序,从中剔除评价值最低的特征并判定剩余特征数量是否小于要求的特征数量,直至剩余特征数量不大于要求的特征数量;
将对应的剩余特征数据确定为特征子集。
2.如权利要求1所述的特征子集的选取方法,其特征在于,对所述高维特征数据进行处理,得到目标随机森林模型,具体包括:
将所述高维特征数据划分为第一训练集和第一测试集;
将所述第一训练集导入随机森林以训练模型并采用网格搜索和交叉验证的方法对随机森林参数调优;
使用所述第一测试集对随机森林模型进行评估,得到所述目标随机森林模型及对应的各特征重要性。
3.如权利要求2所述的特征子集的选取方法,其特征在于,所述随机森林的构建过程包括:
从所述第一训练集中随机有放回地抽样N次,使用对应的N个数据集合训练决策树模型;
从样本的M个属性中选取特征,以信息增益或基尼系数的策略作节点分裂特征;
重复上述步骤,直到节点不可分;
对N棵决策树集成,形成随机森林。
4.如权利要求1所述的特征子集的选取方法,其特征在于,所述基于所述目标随机森林模型的分析处理,得到特征重要性列表,具体包括:
依次得到每个特征在随机森林中的重要性值,以得到所述特征重要性列表,所述重要性值的表示如下式:
RandomForest→max{RFy}
其中,RFy为第y个特征在随机森林中的重要性值。
5.如权利要求4所述的特征子集的选取方法,其特征在于,利用Spearman相关性对所述高维特征数据进行分析,得到特征互相关矩阵,具体如下式所示:
SpearmanRelation→min{Ri,j},i≠j
其中,Ri,j为第i个特征与第j个特征之间的相关系数。
6.如权利要求5所述的特征子集的选取方法,其特征在于,基于所述目标GRU模型的分析处理,得到各特征拟合度量,具体如下式所示:
GRU Prediction→max{R2-adjusted}
其中,R2-adjusted为调整决定系数。
7.如权利要求6所述的特征子集的选取方法,其特征在于,对所述特征重要性列表、所述特征互相关矩阵和各特征拟合度量进行特征关系型融合,得到各特征总体评价值,具体包括:
采用下式计算:
其中,Fk为第k个特征的总体评价值;n为特征数量;SRk为第k个特征的R2-adjusted值;RFk为第k个特征在随机森林中的重要性值;Rk,为第k个特征与第j个特征之间的相关系数;Ri,为第i个特征与第k个特征之间的相关系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211629007.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:紧凑型大通光成像镜头
- 下一篇:一种基于三维点云的图像生成方法和系统





