[发明专利]一种基于混合采样的网络入侵检测方法及系统有效
申请号: | 202010103246.7 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111314353B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 熊炫睿;陈高升;熊炼;张媛;程占伟;付明凯;刘敏 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 采样 网络 入侵 检测 方法 系统 | ||
1.一种基于混合采样的网络入侵检测方法,其特征在于,具体包括以下步骤:
S1、将网络入侵历史数据集中的符号属性转换为数字属性;
S2、将网络入侵历史数据集归一化至区间[0,1];
S3、利用混合采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集,该过程包括:
S101、设置平衡采样数数m,将包含N个种类入侵攻击的历史数据中样本数量大于平衡采样数m的网络入侵攻击划分为多数类,否则为非多数类,非多数类中包括样本数量小于m的少数类以及样本数量等于m的种类;
S102、对每个少数类样本集使用SMOTE进行过采样,使少数类样本数接近平衡采样数m;
S103、对所有类样本集分别使用K-means进行聚类,每个类生成z个簇,从每个簇中不放回地提取簇的代表样本,共提取N*z个样本作为初始的平衡样本集;
S104、使用初始的平衡样本集训练初始的BP神经网络分类器,并设置BP神经网络分类器的迭代次数T,令t=1;
S105、对多数类样本使用基于簇内样本平均分类错误率的欠采样;
S106、从每个非多数类剩余的样本数据集中不放回地随机提取z个样本,并添加至平衡样本集中;
S4、利用获得的训练集训练BP神经网络分类器,该过程包括:
S107、平衡样本集训练再次训练BP神经网络分类器;
S108、判断t是否等于T-1,若是则结束迭代输出训练好的BP神经网络分类器,否则令t=t+1并返回S105;
S5、将实时的网络入侵数据输入训练好的BP神经网络分类器,BP神经网络分类器输出该实时的网络入侵数据的类别。
2.根据权利要求1所述的一种基于混合采样的网络入侵检测方法,其特征在于,对每个少数类样本集使用SMOTE进行过采样的采样倍率表示为:
其中,为对少数类i使用SMOTE进行过采样的采样倍率;Si为第i类入侵攻击的样本集,|Si|表示样本集Si中样本的数量。
3.根据权利要求1所述的一种基于混合采样的网络入侵检测方法,其特征在于,对多数类样本使用基于簇内样本平均分类错误率的欠采样的过程包括:
对多数类中未被采样到平衡样本集中的样本再次使用K-means进行聚类,各类生成m个簇;
计算每个簇的平均分类错误率,并从平均分类错误率最大的z个簇中提取各自簇代表的样本,将样本添加到平衡样本集并将这些样本从多数类中未被采样到平衡样本集中删除。
4.根据权利要求3所述的一种基于混合采样的网络入侵检测方法,其特征在于,簇代表的样本为每个簇中距离簇中心最近的样本。
5.根据权利要求3所述的一种基于混合采样的网络入侵检测方法,其特征在于,簇内样本平均分类错误率表示为:
其中,V(C)表示簇C内样本的平均分类错误率;xj表示簇C内的第j个样本;I表示指示函数,若输入为真则返回1,否则返回0;yj为样本j的真实标签;f(xj)为分类器f对样本j的预测标签。
6.一种基于混合采样的网络入侵检测系统,其特征在于,包括历史数据存储模块、属性转换模块、归一化模块、采样模块、BP神经网络分类器训练模块块以及实时预测模块,其中:
历史数据存储模块,用于存储已经进行了分类的网络入侵数据;
属性转换模块,用于将网络入侵数据中的符号属性转换为数字属性;
归一化模块,用于对经过属性转换后的网络入侵数据归一化到区间;
采样模块,对网络历史数据进行采样,保证训练数据的数据量平衡;采样模块包括数据分类单元、少数类采样单元、样本初选单元以及多数类采样单元,其中:
数据分类模块,用于根据平衡采样数m将历史数据中攻击类型种类分为多数类以及非多数类,其中非多数类包括样本数量小于m的网络入侵攻击类型以及等于m的网络入侵攻击类型;
少数类采样单元,用于使用SMOTE进行过采样,使少数类样本数接近平衡采样数m;
样本初选单元,用于利用K-means进行聚类使得每个网络入侵攻击类型生成z个簇,从每个簇中不放回地提取簇的代表样本,共提取N*z个样本作为初始的平衡样本集;
多数类采样单元,用于对多数类中未被样本初选单元选择的的样本再次使用K-means进行聚类,各类生成m个簇,计算每个簇的平均分类错误率,并从平均分类错误率最大的z个簇中不放回地提取各自簇的代表点;
BP神经网络分类器训练模块,用于根据训练数据对BP神经网络进行训练,获得机BP神经网络分类器;BP神经网络分类器训练模块根据样本初选单元选择的样本训练初始的BP神经网络分类器,训练完成后设置迭代次数,在每次迭代中调用多数类采样单元选择新的多数类中的样本加入样本集,训练BP神经网络分类器,直到达到设置的迭代次数,输出完成训练的BP神经网络分类器;
实时预测模块,将实时的网络入侵数据输入BP神经网络分类器,获得该网络入侵的类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103246.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设备监控方法及系统
- 下一篇:光纤连接器插头、光纤适配器和光纤连接器