[发明专利]结合懒惰学习和急切学习的层次特征选择方法及系统在审
申请号: | 202210365573.9 | 申请日: | 2022-04-08 |
公开(公告)号: | CN114818884A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 吴全旺;李德辉;邹东升;周尚波;房剑钊 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆信必达知识产权代理有限公司 50286 | 代理人: | 刘会锋 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 懒惰 学习 急切 层次 特征 选择 方法 系统 | ||
本发明属于数据工程技术领域,公开了一种结合懒惰学习和急切学习的层次特征选择方法及系统,所述结合懒惰学习和急切学习构建层次特征选择方法结合懒惰学习和急切学习构建层次特征选择算法LE‑HFS;通过两类互补方式的融合改进层次特征选择;LE‑HFS在懒惰学习和急切学习过程中分别使用LazyR和信息增益作为相关性度量,从不同的相关性角度进行综合性特性选择。本发明结合懒惰学习和急切学习的层次特征选择方法,通过两类互补方式的融合来改进层次特征选择,可以从不同的相关性角度进行综合性特性选择,LE‑HFS可以更好地消除层次冗余,从而显著的提高层次特征选择的精确性和稳定性。
技术领域
本发明属于数据工程技术领域,尤其涉及一种结合懒惰学习和急切学习的层次特征选择方法及系统。
背景技术
目前,在一个数据工程任务中,完整的流程由数据分析、数据预处理、特征选择、模型训练和模型融合组成,特征选择在其中发挥着非常重要的作用。特征选择也被称为变量选择、属性选择或变量子集选择,它指的是从所有原始特征中选择出最有价值的部分特征组合,从而使用更少的特征构建出更优秀的模型,并减少了构建模型的时间消耗。
根据特征选择算法的策略,可以将特征选择算法分为过滤式,包裹式和嵌入式方法。过滤式方法先对数据集进行特征选择,然后再训练模型,特征选择过程与后续模型训练无关,ReliefF(Relevant Features)是一种著名的过滤式特征选择方法。包裹式特征选择直接把最终将要使用的模型的性能作为特征子集的评价标准,也就是说,包裹式特征选择的目的就是为给定的模型选择最有利于其性能的特征子集,LVM(Las Vegas Wrapper)是一个典型的包裹式特征选择方法。嵌入式特征选择是将特征选择过程与模型训练过程融为一体,两者在同一个优化过程中完成,从而在模型训练的过程中自动进行特征选择。LASSO和决策树是典型的嵌入式特征选择方法。
懒惰学习和急切学习是指在训练模型时的两种不同的学习方式。懒惰学习对于测试数据集的每一条数据,都需要根据该条数据和训练数据集来对目标函数进行预测,例如KNN和朴素贝叶斯;急切学习首先根据所有训练数据集构建好预测模型,然后直接用得到的模型对所有测试数据集进行预测,例如决策树。
在特征选择算法中,同样也有懒惰学习和急切学习两种学习方式。懒惰特征选择算法对测试数据集的每一条数据选择不同的特征组合;急切特征选择算法根据训练集选择出一套特征组合,且所有测试集也都直接使用该特征组合。
本发明围绕具有层次特征空间结构的数据集研究。具体而言,在该数据集中,每条数据由一系列二进制特征组成(每个特征的取值为0或1),且特征与特征之间的依赖关系通过有向无环图(Directed Acyclic Graph,DAG)表示:每个特征代表图中的一个节点,每条边代表两个特征之间的泛化-特殊化关系。例如,有两个特征A和B,一条由A指向B的边表示A是B的父母,B是A的孩子。具体而言,当且仅当特征有向无环图中存在从A到B(从B到A)的一系列路径时,特征A才是特征B的祖先(后代)。对于实例t,如果特征x在t中具有正值(x=1),则层次结构中x的所有祖先在t中也具有正值;相反,如果特征x在t中具有负值(x=0),则层次结构中x的所有后代在t中也都具有负值。因为根据某个特征的值可以推导出其所有祖先节点特征或孩子节点特征的值,所以层次特征结构导致特征之间具有强烈的冗余性。层次特征选择方法是针对层次特征空间而设计的,它利用特征之间有向无环图的关系,通过消除层次冗余特征,从而保留更少的有用特征,为后续得到更好的模型做准备。
衰老基因数据是一类典型的具有层次特征空间的数据集,该数据集通过由基因本体(Gene Ontology,GO)注解人类衰老基因组资源(Human Ageing Genomic Resources,HAGR)而形成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210365573.9/2.html,转载请声明来源钻瓜专利网。