[发明专利]一种基于过滤法和遗传算法的高维数据特征选择方法在审
申请号: | 201810344521.7 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108805159A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 葛瑞泉;马浙萍;吴卿;邬惠峰;徐岗 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 高维数据 遗传算法 过滤法 删除 基因表达谱数据 最优特征子集 降序排序 生物意义 特征概率 系数计算 样本类别 重要意义 最大信息 传统的 强相关 弱相关 小样本 有效地 高维 降维 类标 判定 搜索 应用 优化 | ||
本发明公开了一种基于过滤法和遗传算法的高维数据特征选择方法。传统的特征选择方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据。本发明首先采用最大信息系数计算输入数据的特征与类标之间的相关性;接着,根据相关性的值对特征进行降序排序,设置阈值,删除弱相关的特征;最后对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本发明能够有效地对高维数据进行特征选择,实现降维,特征选择的结果对样本类别判定具有重要意义,当应用于基因表达谱数据时,选择出来的特征同时还具有重要的生物意义。
技术领域
本发明属于数据挖掘技术领域,涉及一种基于过滤法和遗传算法的高维数据特征选择方法。
背景技术
数据收集和存储技术的进步使得各组织机构积累了海量数据,如何从中提取出有用的信息成为当前的巨大挑战。高维数据一般具有数据稀疏性和维数灾难等特点。高维数据大多数为零少数有值的稀疏性特点使得直接对数据进行分析挖掘具有一定的困难。随着数据维度(属性)的增加,计算量呈指数倍增长,从而产生了维度灾难。通过对高维数据进行有效的特征选择,选取对识别或分类有效的特征,从而简化计算。目前,有基于过滤法、包装法和嵌入法的特征选择方法。基于过滤法的特征选择是根据发散性或相关性对各个特征进行评分,设定阈值,选择特征;基于包装法的特征选择是根据目标函数(通常是根据预测效果评分),每次选择若干特征或者排除若干特征;基于嵌入法的特征选择是先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从小到大进行特征选择,其在局部空间中进行最优特征选择,效果相对有限。
上述所介绍的方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据的特征选择。
发明内容
本发明的目的是针对现有的对高维、小样本数据的特征选择的需求,提出一种基于过滤法和遗传算法结合的特征选择方法。该方法采用基于最大信息系数(the maximalinformation coefficient,简写MIC)(见DN,R.,et al.的论文Detecting novelassociations in large data sets.Science(New York,N.Y.),2011.334(6062))计算相关性的过滤法,删除大量冗余特征,达到提高后续方法的效率,其中最大信息系数是基于互信息的,它可以识别线性和非线性函数关系,相比互信息具有更高准确率。另外,我们采用遗传算法进行特征搜索优化,获得规模相对较小的特征子集,同时保持较高分类准确率。
一种基于过滤法和遗传算法的高维数据特征选择方法,该方法的具体步骤如下:
步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;;
步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;
步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;
步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。
所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):
FitVal=0.1*sum(chrom)+(1-Accuracy) (1)
其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。
所述的分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344521.7/2.html,转载请声明来源钻瓜专利网。