[发明专利]基于机器学习贝叶斯算法的防扫描方法、装置和服务器在审
申请号: | 201810957134.0 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109218294A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 唐其彪;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N20/00;H04L29/12 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 郭新娟 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扫描行为 访问行为 贝叶斯 访问日志 算法 服务器 基于机器 防扫描 机器学习 输出识别 算法模型 客户端 漏报率 识别率 网络层 预设 拦截 采集 学习 检测 | ||
本发明提供了一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器,其中,该方法应用于服务器,该方法包括:采集客户端当前访问行为的访问日志;从访问日志中提取访问日志的特征值;将特征值输入至预设的扫描行为识别模型中,输出识别结果;该扫描行为识别模型通过朴素贝叶斯算法模型训练得到;如果识别结果表明当前访问行为为扫描行为,识别当前访问行为对应的IP地址;在网络层拦截IP地址发出的访问行为。本发明通过机器学习贝叶斯算法的方式建立扫描行为识别模型,根据扫描行为识别模型来识别扫描行为,提高了扫描行为的识别率,降低了漏报率,也降低了对于扫描行为的检测成本。
技术领域
本发明涉及网页安全防护技术领域,尤其是涉及一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器。
背景技术
随着互联网技术的发展,网页应用系统已经广泛应用于政府门户网站、电子商务、互联网等行业,但是,在方便生活和工作的同时,也带来了网络安全隐患。黑客利用扫描技术不仅能够找到服务器漏洞进行攻击而且扫描产生的大量数据报文也占用了大量的网络带宽,导致正常的网络通讯无法进行。目前,对于扫描行为,主要是通过简单统计方法和高级安全专家通过经验人工识别扫描行为,这两种方法识别率低,且在海量访问日志情况下,工作量大,漏报率高,不能有效的识别检测出扫描行为来保障网络安全。
发明内容
有鉴于此,本发明的目的在于提供一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器,以提高扫描行为的识别率,降低漏报率,降低扫描行为的检测成本。
第一方面,本发明实施例提供了一种基于机器学习贝叶斯算法的防扫描方法,其中,该方法应用于服务器,该方法包括:采集客户端当前访问行为的访问日志;从访问日志中提取访问日志的特征值;将特征值输入至预设的扫描行为识别模型中,输出识别结果;扫描行为识别模型通过朴素贝叶斯算法模型训练得到;如果识别结果表明当前访问行为为扫描行为,识别当前访问行为对应的IP地址;在网络层拦截IP地址发出的访问行为。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,从访问日志中提取访问日志的特征值的步骤包括:去除访问日志中日志数量不足两秒或不足100条的IP地址;对去除后的访问日志进行特征提取,得到访问日志的特征值。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,特征值包括响应码、过去两秒的日志量角度的正切值、过去两秒和本次访问日志相同IP的个数占比、过去两秒和本次访问日志相同IP的404占比、过去两秒和本次访问日志相同IP的端口方差、过去100条日志和本次日志相同IP的个数占比、过去100条日志和本次日志相同IP的404占比,以及过去100条日志和本次日志相同IP的端口方差中的多种。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,该方法还包括:设置过去两秒相同IP不足100条端口的方差值为65535;设置过去100条日志相同IP不足3条端口的方差值为65535。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,扫描行为识别模型,具体通过下述方式得到:采集客户端访问日志样本;访问日志样本包括扫描器行为日志样本和正常访问日志样本;搭建初始的朴素贝叶斯算法模型;提取访问日志样本的特征值;将访问日志样本划分成指定份数,采用K折交叉验证法,轮流将至少一份访问日志样本的特征值输入至初始的朴素贝叶斯算法模型中进行训练,得到扫描行为识别模型;将剩余至少一份访问日志样本的特征值通过扫描行为识别模型进行识别,输出识别结果;对比识别结果与识别结果对应的访问日志样本的实际结果,得到扫描行为识别模型的准确率和召回率;准确率为识别结果和实际结果均为真的访问日志样本数量与识别结果为真的访问日志样本数量的比值;召回率为识别结果和实际结果均为真的访问日志样本数量与实际结果为真的访问日志样本数量的比值;根据准确率和召回率调整扫描行为识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810957134.0/2.html,转载请声明来源钻瓜专利网。