[发明专利]基于改进型灰狼优化算法的入侵检测系统特征选择方法在审
申请号: | 201711148008.2 | 申请日: | 2017-11-17 |
公开(公告)号: | CN107832830A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 钮焱;龚红波;李军;童坤;刘宇强;李星 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/12;G06K9/62;G06F21/55 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 魏波 |
地址: | 430068 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进型 灰狼 优化 算法 入侵 检测 系统 特征 选择 方法 | ||
技术领域
本发明属于信息安全技术领域,涉及一种入侵检测系统特征选择方法,具体涉及一种基于改进型灰狼优化算法的入侵检测系统特征选择方法。
背景技术
在科技高速发展的今天,互联网的使用随处可见,无论从公司的产业链还是工厂的流水线,都会出现互联网的身影。但是随着全球电子商务时代的来临,对信息安全的防护也是越来越重要。几乎所有的公司机构和制造工厂都必须通过互联网连接在一起,而互联网是一个开放的环境,任何形式的攻击都会在互联网上传播,国内外各大站点都会遭受钓鱼网站,木马病毒的入侵攻击。所以,构建一个有效地入侵检测系统(IDS)刻不容缓。IDS是用来收集和检测计算机和网络中的入侵攻击。所有的IDS都无外乎都使用了这两种入侵检测方法中的其中一种:基于异常或者基于特征。在基于异常的入侵检测系统中,计算机通过收集正常操作行为的数据来构建一个描述正常操作行为特征的模型,然后检测任何有别于该模型的不可接受的行为。基于异常的入侵检测系统具有低误报率和检测未知攻击行为的特点。而在基于特征的入侵检测系统中,包括正常行为和不正常行为在内的所有操作记录都会被收集起来,然后系统通过对当前操作记录和已收集操作记录的对比来检测不明的入侵攻击。
特征选择的目的是从数据中提取出重要的特征,移除冗余的特征。特征选择能够减少数据维度,提高预测性能,减少过拟合和增强对特征和特征值之间的理解等优点。在现实世界中,我们所要分类的数据常常拥有大量冗余的特征,这就意味着数据中的某些特征可以被其他特征所代替,而被代替的特征在分类的过程中可以被移除,更进一步来讲,特征之间的相互联系对分类的输出效果有很大的影响,如果我们能找出之间的联系,那么我们就能挖掘出潜藏在数据中的大量信息。
所有的特征选择算法都可以分为以下三类:过滤式,嵌入式,包裹式。过滤式方法实现将数据集先进行特征选择,然后在训练分类器,两者割裂开来。该方法的关键是找到一种度量特征重要性的方法,比如pearson相关系数,互信息等。然后再根据其度量大小进行排序,选择度量值排序靠前的特征作为分类标准的特征。但是该方法的缺点是忽视了特征之间的相互依赖关系,一方面,排序靠前的特征,如果某些特征之间相关性较强,则相当于引入了冗余的特征。另一方面,排序靠后的特征,虽然其度量值不大,价值不明显,但是与其他特征独立,与其他特征组合在一起,就有很好的预测作用,如此就损失了有价值的特征。嵌入式方法是将特征选择过程融合到学习器训练过程中,两者在统一过程中完成,比如lasso岭回归。包裹式方法的核心思想是在给定了一个训练模型和预测效果的评价方法下,针对特征空间中的不同的特征子集,评价每个子集的预测效果,选择预测效果最好的特征子集作为最终被挑选出来的训练子集。该方法优点是考虑到了特征之间的相互依赖关系,所以通过包裹式方法选择出的特征子集的预测效果要好于过滤式,但是由于特征子集是一个指数级的量级,所以该方法的缺点是计算量较大。所以针对如何高效的搜索整个特征空间,就产生了不同的算法。
遗传算法是第一个被用来解决该问题的智能算法,遗传算法的思想来源于自然界生物群体之间的生殖遗传过程,把优化问题的解看成是一条基因,然后整个种群之间进行基因交流,包括交叉,变异。自然环境可以看成是目标函数,对自然环境有很高适应度的基因将会被保留下来,遗传给下一代。遗传算法具有解决复杂的非线性优化问题的能力。但是遗传算法存在很多缺点比如运算效率低下和容易陷入局部最优解。
灰狼算法(GWO)是被最近投入使用的进化算法,该算法通过模拟狼群捕食猎物的过程,来寻找所要捕食的猎物的位置,也就是优化问题的最优解。本发明就采用了该方法,且在特征选择方面加以了改进。
发明内容
为了解决上述技术问题,本发明提供了一种基于改进型灰狼优化算法的入侵检测系统特征选择方法。
本发明所采用的技术方案是:一种基于改进型灰狼优化算法的入侵检测系统特征选择方法,其特征在于,包括以下步骤:
步骤1:输入所抓取的入侵数据,将含有标签的样本组成训练集T;
步骤2:初始化当前迭代次数、狼个体编号、狼群种群大小以及每一头狼个体的位置向量;
步骤3:根据位置向量计算每头狼的编码向量,并根据编码向量计算每一头狼的适应值;
步骤4:设定最大迭代次数为max_iter,根据适应值大小选取前三作为α,β和δ;
步骤5:更新每头狼的编码向量,并重新计算每头狼的适应值;
具体包括以下子步骤:
步骤5.1:初始化算法所需要的全局参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711148008.2/2.html,转载请声明来源钻瓜专利网。