[发明专利]基于联合特征选择的网络流量异常检测方法在审
申请号: | 202110772466.3 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113505826A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 朱笑岩;赵晓娟;张琳杰;马建峰 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L29/06 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;王喜媛 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联合 特征 选择 网络流量 异常 检测 方法 | ||
1.一种基于联合特征选择的网络流量异常检测方法,其特征在于,包括:
A)采集网络流量数据,进行数据预处理:
A1)从互联网网站上采集流量数据,提取能够反映流量特性的基本流量数据,包括数值型特征数据和字符型特征数据;
A2)对提取到的基本流量数据进行特征数据类型转换,并对转换后的数据进行标准化处理,得到预处理后的网络流量数据;
B)对预处理后的网络流量数据进行特征选择:
B1)利用基于相关性的特征选择算法和最佳优先搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M;
B2)利用基于互信息的特征选择算法和前向搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S;
C)对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成,得到特征筛选集合Q:
C1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序,将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3;
C2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序,将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3;
C3)根据C1)和C2)的结果,对两个优先特征子集M1和S1进行并操作,得到优先特征集合U;对两个有用特征子集M2和S2进行交操作,得到有用特征集合I;删除无用特征子集M3和S3;
C4)对优先特征集合U和有用特征集合I进行并操作,得到特征筛选集合Q;
D)对预处理后的网络流量数据,利用特征筛选集合Q进行特征筛选,随机选取70%组成训练样本集,剩下的30%组成测试样本集;
E)以决策树作为个体分类器,将d个决策树进行组合构成随机森林分类模型,其中5≤d≤20;
F)训练随机森林分类模型:
从训练样本集中利用自助采样方法生成d个训练样本子集,分别对d个训练样本子集,选择其基尼指数最小的特征进行分裂,对获得的特征,重复上述操作,直到分裂停止时结束,得到d个训练好的决策树,输出d个分类结果;
对d个分类结果利用多数投票法得到最终的检测结果,即构成训练好的随机森林分类模型;
G)将测试样本集中的数据输入已经训练好的随机森林分类模型中,得到流量异常检测的检测结果。
2.根据权利要求1所述的方法,其特征在于,A2)中对提取到的基本流量数据进行特征数据类型转换,是采用独热编码技术,将基本流量数据中的字符型特征转换成数值型特征。
3.根据权利要求1所述的方法,其特征在于,A2)中对转换后的数据进行标准化处理,通过如下公式进行:
其中,x′i代表第i个特征标准化后的值,xi代表第i个特征标准化前的值,min(X(i))代表第i个特征中的最小值,max(X(i))代表第i个特征中的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110772466.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的SAR自聚焦方法
- 下一篇:一种医用伤口清洁器