[发明专利]基于改进引力搜索算法的数据集特征选择方法在审
申请号: | 201910636418.4 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110427984A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 朱磊;何首帅;王磊;曾维军;俞璐;杨健;郭继斌 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据集 候选特征 搜索算法 特征选择 引力 集合 二进制向量 改进 计算效率 全局记忆 特征集合 有效解决 构建 样本 引入 优化 开发 | ||
本发明公开了一种基于改进引力搜索算法的数据集特征选择方法,包括确定数据集全部样本及全部特征;根据数据集的全部特征,随机构建N个候选特征集合,将每个候选特征集合表示为一个二进制向量;使用改进引力搜索算法对候选特征集合进行优化,得到最优特征集合。本发明引入全局记忆的概念,并采用指数Kbest的定义,提高了开发能力和计算效率,可以有效解决数据集特征选择问题。
技术领域
本发明属于数据集特征选择技术,具体为一种基于改进引力搜索算法的数据集特征选择 方法。
背景技术
机器学习在应用到技术和工程领域时,通常需要对包含大量特征的数据集进行处理,但 有些特征可能是不相关的或具有误导性的,这会增加计算成本,甚至降低分类准确率。因此, 需要进行特征选择。特征选择的目的是减少用于描述数据集的特征数量,通过消除冗余的噪 声,降低存储需求,避免过拟合问题。
特征选择是一种二进制优化问题,现有寻找最优特征集合的搜索策略包括穷举搜索和启 发式搜索。而对所有特征集合进行穷举搜索需要大量的计算成本,这在实际中不可行,尤其 是当特征数量很大时。因此,优化问题的目的是找到最优解,经常运用启发式算法寻找近似 最优的特征集合。现有方法包括使用粒子群优化、蚁群优化和遗传算法等。然而,大多数现 有方法都存在过早收敛的缺点。引力搜索算法是一种根据引力定律和运动定律构建的启发式 算法,已经证明引力搜索算法在优化领域与其它著名的启发式算法相比具有一定的优势。然 而,同其它现有方法一样,利用原始引力搜索算法解决特征选择问题仍然存在过早收敛的问 题。
发明内容
本发明的目的在于提供一种基于改进引力搜索算法的数据集特征选择方法。
实现本发明目的的技术方案为:一种基于改进引力搜索算法的数据集特征选择方法,具 体步骤为:
步骤1、确定数据集全部样本及全部特征;
步骤2、根据数据集的全部特征,随机构建N个候选特征集合,将每个候选特征集合表 示为一个二进制向量;
步骤3、使用改进引力搜索算法对候选特征集合进行优化,得到最优特征集合。
优选地,步骤2中每个候选特征集合的位数对应全部特征数,随机赋予向量中每一位1 或0值以表示该候选特征集合中是否包含相应的特征。
优选地,步骤3使用改进引力搜索算法对候选特征集合进行优化的具体方法为:
步骤3-1、将N个候选特征集合设置为初始粒子,形成初始种群,每个粒子的位置具体 表示为:
式中,表示候选特征集合i中特征d,D表示空间维数,等于特征总数,N表示粒子总数;
步骤3-2、使用K近邻算法计算粒子的分类准确率;
步骤3-3、根据粒子的分类准确率和粒子中包含的特征数量构建最大化适应度函数,并 计算粒子的适应度值;
步骤3-4、根据适应度值更新每个粒子的质量,更新公式为:
Mai=Mpi=Mii=Mi
其中,Mai、Mpi和Mii分别表示粒子i的主动引力质量、被动引力质量和惯性质量,best 和worst分别表示所有粒子中的最佳适应度值和最差适应度值,fiti表示粒子i的适应度值;
步骤3-5、确定维度d中粒子i的加速度:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636418.4/2.html,转载请声明来源钻瓜专利网。