[发明专利]一种基于人工蜂群算法的数据特征选择方法在审
申请号: | 201611162314.7 | 申请日: | 2016-12-15 |
公开(公告)号: | CN106650914A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 陈杰;周武能;陆康迪 | 申请(专利权)人: | 东华大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00 |
代理公司: | 上海泰能知识产权代理事务所31233 | 代理人: | 宋缨,钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工 蜂群 算法 数据 特征 选择 方法 | ||
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于人工蜂群算法的数据特征选择方法。
背景技术
近年来,数据挖掘技术在商业智能、生物医疗和基因检测等领域得到了的广泛应用,而如何从大规模数据中进行降维,以得到有效的简化数据,正变得越来越重要。在许多实际应用中,存储于数据库中的数据集往往拥有成千甚至上万个特征,但并不是所有的特征都对发现隐藏于数据背后的重要信息有帮助。由于只有小部分特征代表着整个高维特征空间的分布特性,这些需要被删选掉的特征,不仅在学习算法对知识发现的过程中增加了干扰,也增加了学习结果的复杂性和不可解释性。特征选择作为一种关键的数据分析方法和预处理手段,在对数据进行知识挖掘之前,通过从原始数据特征集合中选择其中的一个最优特征子集,不但可以消除数据噪声的干扰、剔除冗余和无关的特征,也可以大大降低后续数据处理的复杂度,减小运行时间,并提高数据分析的准确性和有效性。目前,特征选择已成功地应用于图像分类、聚类分析、模式识别和图片检索等场合,帮助研究人员从大规模数据集中挑选出最好的一组特征子集,简化应用过程,从而更好地理解学习算法的结果。
特征选择方法可以分为过滤式和封装式两种模式。过滤式是基于数据的统计特性,如计算信息熵、距离等度量指标来赋予各个特征不同的权重,以此来决定特征是否应该被保留或剔除,所以是一种独立于学习算法之外的特征选择方法。与过滤式不同的是,封装式则利用学习算法来甄别出有用的特征,将特征选择问题建模为一个典型的组合优化问题,通过基于学习算法的特征选择搜索方法,寻找到最优特征子集。总的来说,封装式可以比过滤式取得更好的学习结果,这是因为封装式建立了特征与学习算法之间的关系,可以为不同的学习算法选择最适合的特征子集,从而大大提高学习算法的准确率。不过,封装式往往会比过滤式占用更多的运行时间。
不管是过滤式还是封装式,现有的特征选择搜索方法存在着高复杂度和低效率的缺陷。例如,暴力搜索方法通过评估特征集合的每一个特征子集来达到选择最优特征子集的目的。然而,面对拥有较多特征的大数据集来说,这是不可能实现的,因此,在实际应用中很少采用这种方法。此外,在利用封装式来选择最优特征子集时,并没有考虑对最优特征个数的最小化。
发明内容
本发明所要解决的技术问题是提供一种基于人工蜂群算法的数据特征选择方法,能够降低特征选择方法的复杂性。
本发明解决其技术问题所采用的技术方案是:提供一种基于人工蜂群算法的数据特征选择方法,包括以下步骤:
(1)确定人工蜂群算法的控制参数,将获得的数据集进行预约归一化处理;
(2)初始化产生一组采蜜蜂位置,依据选择的特征选择适应度函数计算每一个采蜜蜂的适应度值,并将其对应的开采次数置为零;
(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,计算新个体的适应度值并更新其开采次数;
(4)计算选择概率模型函数,依概率模型函数选择一个采蜜蜂作为观察蜂,更新观察蜂位置,计算新个体的适应度值并更新其开采次数;
(5)观察开采次数,实施采蜜蜂位置更新机制;
(6)保留目前为止最优解位置,即代表最优特征子集;
(7)若达到最大迭代次数,则输出最优特征子集;否则重复步骤(2)~步骤(6)。
所述步骤(1)的具体为:对数据集中的每一维特征值映射至[0,1]范围,即f'=(f-f min)/(f max-f min),其中,f'为该维特征映射后的值,f为该维特征未映射前的值,f min为该维特征在数据集中的最小值,f max为该维特征在数据集中的最大值。
所述步骤(2)中初始化产生一组采蜜蜂位置具体为:针对特征选择这一组合优化问题,对采蜜蜂位置采用二进制编码,编码长度值代表数据集中原始特征的总个数,用“1”表示该位代表的特征被选中,用“0”表示该位代表的特征未被选中。
所述步骤(2)中每一个采蜜蜂的适应度值计算方式为Fit=w*(1-Acc)+(1-w)*(N1/N2),其中,Fit为适应度函数值,Acc为基于数据集利用10-fold交叉验证法计算得到的学习算法的准确率,N1为采蜜蜂位置中置为“1”的个数,N2为数据集中原始特征的总个数;w为权重值,取值范围为[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611162314.7/2.html,转载请声明来源钻瓜专利网。