[发明专利]一种特征子集的选取方法、装置及存储介质在审

申请号：	202211629007.0	申请日：	2022-12-01
公开（公告）号：	CN116186507A	公开（公告）日：	2023-05-30
发明（设计）人：	刘美;吴斌鑫;周正南	申请（专利权）人：	广东石油化工学院
主分类号：	G06F18/2113	分类号：	G06F18/2113;G06F18/25;G06F18/2431;G06N3/0442
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	郝传鑫
地址：	525000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种特征子集选取方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种特征子集的选取方法、装置及存储介质，方法包括获取高维特征数据；利用随机森林得到特征重要性列表；利用Spearman相关性得到特征互相关矩阵；根据目标GRU模型得到各特征拟合度量；对特征重要性列表、特征互相关矩阵和各特征拟合度量进行特征关系型融合得到各特征总体评价值；不断对各特征总体评价值进行特征排序，从中剔除评价值最低的特征并判定剩余特征数量是否小于要求的特征数量，直至剩余特征数量不大于要求的特征数量；得到特征子集。本发明的特征子集的选取方法，利用Spearman相关性分析和随机森林以及GRU进行联合评价，完成特征评价多元化，进而实现特征数据降维，完善了特征评价的处理流程，为后续工作减少了时间复杂度和空间复杂度。

技术领域

本发明涉及机器学习和模式识别技术领域，尤其是涉及一种特征子集的选取方法、装置及存储介质。

背景技术

近年来，多传感数据监测在信号处理、工业过程控制、图像处理、全自动目标跟踪等领域有着较为广泛的应用，由此带来的海量数据对待识别目标的描述尤为关键。由于目标的描述属性(即特征)往往是高维度的且存在冗杂，因此需要进行降维，而特征选择是在给定数据集上选择有利于后续算法的特征子集，从而能够实现降维。

因此，如何选取特征子集对于以多传感数据为基础的高维数据的降维具有重要的意义，是本领域技术人员所要亟待解决的技术问题。

发明内容

本发明提供一种特征子集的选取方法、装置及存储介质，通过特定的方法策略，利用Spearman相关性分析和随机森林以及GRU进行联合评价，完成特征评价多元化，进而实现特征数据降维，完善了特征评价的处理流程，为后续工作减少了时间复杂度和空间复杂度。

为了解决上述技术问题，本发明实施例提供了一种特征子集的选取方法，包括：

获取高维特征数据；

对所述高维特征数据进行处理，得到目标随机森林模型，并基于所述目标随机森林模型的分析处理，得到特征重要性列表；

利用Spearman相关性对所述高维特征数据进行分析，得到特征互相关矩阵；

根据滑动窗口法，对各特征在所述特征互相关矩阵中的所在列进行处理，建立各特征预测数据集；