[发明专利]一种基于Stacking框架的特征选择方法在审
申请号: | 202110679793.4 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113535694A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王海荣;薛伟伟 | 申请(专利权)人: | 北方民族大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06N20/20;G16H50/20 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 750021 宁夏回族*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 stacking 框架 特征 选择 方法 | ||
本发明公开了一种基于Stacking框架的特征选择方法,使用K‑Fold交叉验证方式训练并保存DNN、SVM基学习器,基学习器预测结果作为元学习器输入,训练并保存逻辑回归学习模型;综合分析全连接神经网络权重矩阵、支持向量机相关系数,根据元学习器模型学习结果为各基学习器赋予不同权重,计算各特征影响因子并调用序列后向搜索算法(SBS)生成最优特征子集。实验结果表明本发明公开的方法能够减少模型训练时间,提升模型的召回率、F1值。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于Stacking框架的特征选择方法。
背景技术
特征选择是通过计算源数据中每个特征对最终模型输出结果的影响因子来进行选择与过滤,其主要用于数据高维特征空间的降维处理,来解决“维度灾难”问题。由于在众多研究领域的模型训练中,均能通过特征选择来降低源数据高维信息的语义矩阵维度,从而减少模型复杂度,达到缩短模型训练时间、降低训练成本的目的,因此,特征选择算法在学术界和行业得到广泛关注。例如在疾病诊断应用上,通常使用特征选择方法生成原始数据特征空间最优的特征子集,然后使用最优特征子集来判断一位就诊人员是否有患心脏病的风险。心脏病诊断的准确性和效率由所选择的特征子集和分类器决定。如果模型特征过多、复杂度高,诊断的准确率和效率就会降低。
传统的特征选择方法主要包括主成分分析法(PCA)、TF-IDF、互信息等。丁雪梅等使用调整的余弦相似度来度量特征间的相关性,提出一种基于Relief的无监督特征选择方法。高宝林等对传统CHI进行改进,引入类内和类间分布因子来降低特征词在类间均匀分布时对分类带来的负贡献并将其应用微博情感分析。周传华等特征相关性和分类能力两个方面对特征进行综合度量,调用序列前向选择来删除冗余特征并用实验证明其有效性。胡峰等动态地将原始特征集划分为若干个特征子空间,提出了一种基于特征聚类的封装式特征选择算法并证明该算法可提升分类器性能。陈谌等提出一种基于随机森林Gini指标和卡方检验的最优特征子集的特征选择方法并应用于支持向量机算法模型中,解决了传统机器学习分类算法在非平衡数据集上准确率降低的问题。雷海锐等提出一种基于filter-wrapper模型的混合式特征选择方法并通过实验证明了该方法选择的特征子集具有更好的分类能力。Chen等针对高维数据提出一种SFR特征选择方法,该方法首先进行子空间特征聚类来判别每个特征对每个类别重要性,然后使用分层特征加权方法对特征排序。Kewen Li等针对正负样本不均衡数据集提出一种加权互信息的WMI特征选择方法,该方法使用模糊C均值聚类为样本分配不同权重,根据权重计算互信息,最后用NASA四个不均衡数据来验证WMI方法有效性。
综上,现有特征选择算法通过分析单个特征信息增益(IG)、平均下降Gini指数等指标来衡量该特征与学习目标相关性,根据相关性大小来过滤冗余特征,没有考虑模型训练时源数据高维语义矩阵线性变换和非线性变换过程中不同维度间相互影响的关系。
发明内容
针对上述存在的问题,本发明提供一种基于Stacking框架的特征选择方法,结合Stacking学习模型能够融合多个机器学习模型的优势,利用序列后向搜索的特征选择算法通过综合分析多个学习模型训练过程中生成的学习参数并做加权处理,能够更细粒度地提取和分析源数据特征空间中每个特征影响因子大小。
实现本发明目的的技术解决方案为:
一种基于Stacking框架的特征选择方法,其特征在于,包括以下步骤:
步骤1:对输入的疾病数据进行清洗,分析各特征维度数据缺失情况并进行填充,并对数据进行标准化处理,得到更加规范的用于机器学习的数据集;
步骤2:使用K-Fold交叉验证方式训练Stacking集成学习模型,并将步骤1得到的数据集输入到所述Stacking集成学习模型中进行训练,得到特征因子影响矩阵;
步骤3:利用特征选择算法对所述特征因子影响矩阵进行选择,不断迭代删除冗余特征,最终输出分类器全局最高精确率和所对应的最优特征子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方民族大学,未经北方民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110679793.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中心静脉插管用导管鞘及辅助装置
- 下一篇:一种便捷的笛架筒