[发明专利]基于机器学习的针对网络主动监控系统的误报消除方法在审
申请号: | 201810204996.6 | 申请日: | 2018-03-13 |
公开(公告)号: | CN108520005A | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 胡昌振;吕坤;郑宇坤 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N99/00 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 仇蕾安 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明设计了一种基于机器学习的针对网络主动监控系统的误报消除方法,属于信息安全技术领域。具体为:步骤一、建立实验数据集。步骤二、对实验数据集进行预处理,然后利用模糊聚类算法进行处理,检测出非攻击数据。步骤三、对数据的最终分类结果进行输出。本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法与已有技术相比较,具有以下优点:①利用聚类方法对数据进一步处理,能够降低整体误报率。②采用的数据集是经过分类检测处理之后的数据,去除了无关数据。 | ||
搜索关键词: | 主动监控系统 基于机器 误报 实验数据集 预处理 模糊聚类算法 信息安全技术 分类检测 分类结果 网络 数据集 误报率 聚类 去除 学习 输出 攻击 检测 | ||
【主权项】:
1.一种基于机器学习的针对网络主动监控系统的误报消除方法,其特征在于:其具体操作步骤是:步骤一、利用已有攻击数据,建立攻击数据集;所述攻击数据带有攻击类型标签;然后,周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集,将警报数据集和攻击数据集整合为实验数据集,用符号n表示实验数据集的数据数量,用符号n1表示攻击数据集的数据数量,用符号n2表示警报数据集的数据数量;n>10000,n1/n2≥10;步骤二、对实验数据集进行预处理,然后利用模糊聚类算法进行处理,检测出非攻击数据;具体步骤为:步骤2.1:将实验数据集中的一条数据表示为m维的特征向量x,m为数据的特征数量,m>30,x={x1,x2,x3…xm};将实验数据集划分为C个类簇,其中,C为人为设定值,C∈(1,n/10);为实验数据集中的数据设置隶属度的阈值,用符号δ表示,δ为人为设定值,δ≤0.5;步骤2.2:用0到1之间的随机数初始化数据的隶属度,使其满足如公式(1)所示的约束条件;
其中,μik表示第k条数据对第i个类簇的归属度,i∈[1,C];步骤2.3:根据各点的隶属度求解各个类簇的聚类中心,计算方法如公式(2)所示;
其中,Pi表示第i个类簇的聚类中心;m是控制算法柔性的参数,m为人为设定值,取值范围为m∈(0,1);xk表示第k条数据对应的特征向量;步骤2.4:用最小平方误差函数作为算法的目标函数,求解目标函数的最小值;目标函数的计算方法如公式(3)所示;
其中,J是目标函数;||Pi‑Mi||2表示聚类中心Pi到点Mi的欧氏距离;步骤2.5:设置目标函数J的阈值为ε,ε为人为设定值,ε为正实数;当目标函数J的结果大于阈值ε时,执行步骤2.6的操作;否则,执行步骤2.7的操作;步骤2.6:根据公式(4)更新数据的隶属度,然后重复操作2.3至2.5的操作;
其中djk表示距离范数,djk=||xk‑pi||A(xk‑pi),其中A为人为设定值,取值范围为(0,10];步骤2.7:更新实验数据集中各数据的隶属度;判断各数据的隶属度的取值和阈值的大小关系,如果隶属度小于阈值δ,表示所述数据为非攻击数据,将这部分数据标记为正常数据,完成对攻击行为的误报消除操作;将隶属度大于阈值δ的数据标记为攻击数据;步骤三、对步骤二得到的实验数据集各数据的最终分类结果进行输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810204996.6/,转载请声明来源钻瓜专利网。