[发明专利]一种特征子集的选取方法、装置及存储介质在审
| 申请号: | 202211629007.0 | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN116186507A | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 刘美;吴斌鑫;周正南 | 申请(专利权)人: | 广东石油化工学院 |
| 主分类号: | G06F18/2113 | 分类号: | G06F18/2113;G06F18/25;G06F18/2431;G06N3/0442 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
| 地址: | 525000 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 特征 子集 选取 方法 装置 存储 介质 | ||
本发明公开了一种特征子集的选取方法、装置及存储介质,方法包括获取高维特征数据;利用随机森林得到特征重要性列表;利用Spearman相关性得到特征互相关矩阵;根据目标GRU模型得到各特征拟合度量;对特征重要性列表、特征互相关矩阵和各特征拟合度量进行特征关系型融合得到各特征总体评价值;不断对各特征总体评价值进行特征排序,从中剔除评价值最低的特征并判定剩余特征数量是否小于要求的特征数量,直至剩余特征数量不大于要求的特征数量;得到特征子集。本发明的特征子集的选取方法,利用Spearman相关性分析和随机森林以及GRU进行联合评价,完成特征评价多元化,进而实现特征数据降维,完善了特征评价的处理流程,为后续工作减少了时间复杂度和空间复杂度。
技术领域
本发明涉及机器学习和模式识别技术领域,尤其是涉及一种特征子集的选取方法、装置及存储介质。
背景技术
近年来,多传感数据监测在信号处理、工业过程控制、图像处理、全自动目标跟踪等领域有着较为广泛的应用,由此带来的海量数据对待识别目标的描述尤为关键。由于目标的描述属性(即特征)往往是高维度的且存在冗杂,因此需要进行降维,而特征选择是在给定数据集上选择有利于后续算法的特征子集,从而能够实现降维。
因此,如何选取特征子集对于以多传感数据为基础的高维数据的降维具有重要的意义,是本领域技术人员所要亟待解决的技术问题。
发明内容
本发明提供一种特征子集的选取方法、装置及存储介质,通过特定的方法策略,利用Spearman相关性分析和随机森林以及GRU进行联合评价,完成特征评价多元化,进而实现特征数据降维,完善了特征评价的处理流程,为后续工作减少了时间复杂度和空间复杂度。
为了解决上述技术问题,本发明实施例提供了一种特征子集的选取方法,包括:
获取高维特征数据;
对所述高维特征数据进行处理,得到目标随机森林模型,并基于所述目标随机森林模型的分析处理,得到特征重要性列表;
利用Spearman相关性对所述高维特征数据进行分析,得到特征互相关矩阵;
根据滑动窗口法,对各特征在所述特征互相关矩阵中的所在列进行处理,建立各特征预测数据集;
根据所述各特征预测数据集得到目标GRU模型,并基于所述目标GRU模型的分析处理,得到各特征拟合度量;
对所述特征重要性列表、所述特征互相关矩阵和各特征拟合度量进行特征关系型融合,得到各特征总体评价值;
不断对各特征总体评价值进行特征排序,从中剔除评价值最低的特征并判定剩余特征数量是否小于要求的特征数量,直至剩余特征数量不大于要求的特征数量;
将对应的剩余特征数据确定为特征子集。
作为其中一种优选方案,对所述高维特征数据进行处理,得到目标随机森林模型,具体包括:
将所述高维特征数据划分为第一训练集和第一测试集;
将所述第一训练集导入随机森林以训练模型并采用网格搜索和交叉验证的方法对随机森林参数调优;
使用所述第一测试集对随机森林模型进行评估,得到所述目标随机森林模型及对应的各特征重要性。
作为其中一种优选方案,所述随机森林的构建过程包括:
从所述第一训练集中随机有放回地抽样N次,使用对应的N个数据集合训练决策树模型;
从样本的M个属性中选取特征,以信息增益或基尼系数的策略作节点分裂特征;
重复上述步骤,直到节点不可分;
对N棵决策树集成,形成随机森林。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211629007.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:紧凑型大通光成像镜头
- 下一篇:一种基于三维点云的图像生成方法和系统





