[发明专利]基于评分机制的森林优化算法的特征选择方法在审

专利信息
申请号: 201710130391.2 申请日: 2017-03-07
公开(公告)号: CN106991432A 公开(公告)日: 2017-07-28
发明(设计)人: 马廷淮;贾冬冬;田伟;金子龙 申请(专利权)人: 南京信息工程大学
主分类号: G06K9/62 分类号: G06K9/62;G06N99/00
代理公司: 江苏爱信律师事务所32241 代理人: 唐小红
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 评分 机制 森林 优化 算法 特征 选择 方法
【说明书】:

技术领域

发明属于数据挖掘领域,具体涉及的是一种利用评分机制的森林优化算法对高维数据集进行有效的特征选择。

背景技术

随着互联网的迅速发展,把人类迅速的带入了信息化时代,尤其是网络应用的发展,社交网络把人类紧密的联系在一起,近年来社交网络(如:Facebook、腾讯、微博)的迅猛发展,对社交网络数据进行挖掘分析的学者也越来越多,社交网络是个聚宝盆,富含着大量有用的信息。比如我们可以通过提取节点的兴趣,爱好,关系或其他可能的特征,可以得出对用户的价值观、兴趣、活动范围等重要信息。我们也可以从这些属性中去判断,该社交网络属于那种类型。推荐给用户。然而社交网络有着大量数据和信息产生并日复一日的积累下来,而且很多的信息存在着冗余,需要处理的数据的维度越来越大,所以我们要提取出最有价值的信息,但是又不会影响其社交网络本身的特性,社交网络存在着大量的属性信息。这也被称为维度灾难,即解空间大小随数据维度的增长呈指数级增长的问题。数据的维度主要包含两个方面,数据的实例个数及数据的特征个数。为了解决特征维度过高的问题,特征选择技术被提出来。所以特征选择对社交网络分类的研究具有重大意义。

Feizi-Derakhshi等在2014年提出了森林优化算法。该算法和遗传算法、量子群、布谷鸟算法都属于空间搜索算法,都是寻找近似最优解问题。它是模拟大自然中森林的形成过程,在大自然中,森林是由鸟儿,蜜蜂和风携带着种子,播种而产生的。经过大量的实验发现:森林优化算法选择的子集存在过多的随机性,会引起收敛速度慢并使得结果陷入局部最优。该算法并没有从特征选择本身的领域出发,而是根据该算法本身进行随机特征选择的。该算法在适应度函数选择上面单独的采用的KNN分类器的精确度作为适应度值,缺乏正确的导向性。本发明通是过分析以上缺点,从候选集选优策略、单个特征对特征集合的评分策略,设计一种基于评分机制的森林优化算法的特征选择,能够快速、有效的搜索到近似最优的特征子集。

发明内容

本发明的所要解决的技术问题是在每一次搜索最优特征子集的过程中让具有较高适应度值的子集具有更高的被选中的概率。使得每一次的选择不是完全随机的,而是带有一定的倾向性、加快算法的收敛。能够降低陷入局部最优解的概率。

基于评分机制的森林优化算法的特征选择算法,包括以下步骤:

步骤1),初始化树、森林。森林是由许多树构成的。

步骤2),局部播种。在步骤1)得到的初始化的森林,在给森林中的每棵树添加邻居树。

策步骤3),种群限制。在步骤2),得到新增树后的森林,根据适应度值排序。并且对一部分树进行淘汰处理。把排序靠后的树提取出来,采用候选集择优策略选择出潜在最优特征子集的树,结果放入候选集中。

步骤4),全局播种。在步骤3),得到一批潜在最优子集的树,在给他们树添加邻居树。加入森林中去。

步骤5),更新最优树。在这个阶段,把森林中适应度值最高的树选为是最好树并记录下来。再执行步骤2),直到满足停止条件。

进一步的,基于评分机制的森林优化算法的特征选择算法,步骤1),初始化树、森林。森林是由许多树构成的。树的结构类似于数组的结构。如果一个数据集有n个特征,那么每棵树表示为n个特征再加上一个变量“age”,每棵树的大小是1*(n+1),其中“age”特征描述了树的年龄。随机生成20棵树规模的森林。(规模为20可以解决大部分问题)。每棵树的每个特征随机初始化为“0”或“1”。树中的每一个树“1”表示该特征被选择,“0”表示特征被淘汰、排除。每棵树的“年龄”被赋值“0”。

进一步的,基于评分机制的森林优化算法的特征选择算法,步骤2),局部播种:这个阶段为每棵树增加一些邻居“age”为0的树。现在,森林中的每棵树“age”为0,随机选择一些变量(“LSC”参数确定所选变量的数量)。根据特征评分模型去判断,每次随机选择的特征对整个特征集合的分类的影响程度的评分。评分很低的我们可以直接放弃这次选择,再次重新随机选择。然后把所选变量的值从 0到1或者相反。这个过程模拟局部搜索在空间;在执行局部搜索阶段之后,所有树的“age”除了新添加的树外,age属性加1。

其中评分模型定义为:

Score(f,s)=Relevance(f,c)-Redundancy(f,s)

(1)Relevance(f,c)是特征f和类属性C的相关度,其值越高代表特征f对于分类的帮助越大,反之则越低。定义如下:

Relevance(f,c)=I(f,c)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710130391.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top