[发明专利]基于机器学习贝叶斯算法的防扫描方法、装置和服务器在审
申请号: | 201810957134.0 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109218294A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 唐其彪;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N20/00;H04L29/12 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 郭新娟 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扫描行为 访问行为 贝叶斯 访问日志 算法 服务器 基于机器 防扫描 机器学习 输出识别 算法模型 客户端 漏报率 识别率 网络层 预设 拦截 采集 学习 检测 | ||
1.一种基于机器学习贝叶斯算法的防扫描方法,其特征在于,所述方法应用于服务器,所述方法包括:
采集客户端当前访问行为的访问日志;
从所述访问日志中提取所述访问日志的特征值;
将所述特征值输入至预设的扫描行为识别模型中,输出识别结果;所述扫描行为识别模型通过朴素贝叶斯算法模型训练得到;
如果所述识别结果表明当前访问行为为扫描行为,识别所述当前访问行为对应的IP地址;
在网络层拦截所述IP地址发出的访问行为。
2.根据权利要求1所述的方法,其特征在于,从所述访问日志中提取所述访问日志的特征值的步骤包括:
去除所述访问日志中日志数量不足两秒或不足100条的IP地址;
对去除后的所述访问日志进行特征提取,得到所述访问日志的特征值。
3.根据权利要求1所述的方法,其特征在于,所述特征值包括响应码、过去两秒的日志量角度的正切值、过去两秒和本次访问日志相同IP的个数占比、过去两秒和本次访问日志相同IP的404占比、过去两秒和本次访问日志相同IP的端口方差、过去100条日志和本次日志相同IP的个数占比、过去100条日志和本次日志相同IP的404占比,以及过去100条日志和本次日志相同IP的端口方差中的多种。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
设置过去两秒相同IP不足100条端口的方差值为65535;
设置过去100条日志相同IP不足3条端口的方差值为65535。
5.根据权利要求1所述的方法,其特征在于,所述扫描行为识别模型,具体通过下述方式得到:
采集客户端访问日志样本;所述访问日志样本包括扫描器行为日志样本和正常访问日志样本;
搭建初始的朴素贝叶斯算法模型;
提取所述访问日志样本的特征值;
将所述访问日志样本划分成指定份数,采用K折交叉验证法,轮流将至少一份所述访问日志样本的特征值输入至所述初始的朴素贝叶斯算法模型中进行训练,得到扫描行为识别模型;
将剩余至少一份所述访问日志样本的特征值通过所述扫描行为识别模型进行识别,输出识别结果;
对比所述识别结果与所述识别结果对应的访问日志样本的实际结果,得到所述扫描行为识别模型的准确率和召回率;所述准确率为所述识别结果和实际结果均为真的访问日志样本数量与识别结果为真的访问日志样本数量的比值;所述召回率为所述识别结果和实际结果均为真的访问日志样本数量与实际结果为真的访问日志样本数量的比值;
根据所述准确率和所述召回率调整所述扫描行为识别模型。
6.根据权利要求5所述的方法,其特征在于,所述扫描器行为日志样本包括:扫描软件1小时日志,以及过滤生产环境扫描行为IP且提取连续1小时日志;所述正常访问日志样本包括:生产环境正常访问日志,以及通过过滤规则后日志响应码为200的日志。
7.根据权利要求1所述的方法,其特征在于,所述在网络层拦截所述IP地址发出的访问行为的步骤,包括:拦截所述IP地址当前发出的访问行为和/或后续发出的访问行为。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
识别所述扫描行为对应的扫描IP地址;
根据预设的IP地址的数据信息与威胁等级的对应关系,对所述扫描IP地址进行威胁等级划分;
对连续指定次数识别为扫描IP地址的IP地址进行指数级时长封锁;
将所述指数级时长封锁的IP地址所扫描的域名发送至所述域名对应的服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810957134.0/1.html,转载请声明来源钻瓜专利网。