[发明专利]基于机器学习贝叶斯算法的防扫描方法、装置和服务器在审

申请号：	201810957134.0	申请日：	2018-08-21
公开（公告）号：	CN109218294A	公开（公告）日：	2019-01-15
发明（设计）人：	唐其彪;范渊	申请（专利权）人：	杭州安恒信息技术股份有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06N20/00;H04L29/12
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	郭新娟
地址：	310000 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	扫描行为访问行为贝叶斯访问日志算法服务器基于机器防扫描机器学习输出识别算法模型客户端漏报率识别率网络层预设拦截采集学习检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器，其中，该方法应用于服务器，该方法包括：采集客户端当前访问行为的访问日志；从访问日志中提取访问日志的特征值；将特征值输入至预设的扫描行为识别模型中，输出识别结果；该扫描行为识别模型通过朴素贝叶斯算法模型训练得到；如果识别结果表明当前访问行为为扫描行为，识别当前访问行为对应的IP地址；在网络层拦截IP地址发出的访问行为。本发明通过机器学习贝叶斯算法的方式建立扫描行为识别模型，根据扫描行为识别模型来识别扫描行为，提高了扫描行为的识别率，降低了漏报率，也降低了对于扫描行为的检测成本。

技术领域

本发明涉及网页安全防护技术领域，尤其是涉及一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器。

背景技术

随着互联网技术的发展，网页应用系统已经广泛应用于政府门户网站、电子商务、互联网等行业，但是，在方便生活和工作的同时，也带来了网络安全隐患。黑客利用扫描技术不仅能够找到服务器漏洞进行攻击而且扫描产生的大量数据报文也占用了大量的网络带宽，导致正常的网络通讯无法进行。目前，对于扫描行为，主要是通过简单统计方法和高级安全专家通过经验人工识别扫描行为，这两种方法识别率低，且在海量访问日志情况下，工作量大，漏报率高，不能有效的识别检测出扫描行为来保障网络安全。

发明内容

有鉴于此，本发明的目的在于提供一种基于机器学习贝叶斯算法的防扫描方法、装置和服务器，以提高扫描行为的识别率，降低漏报率，降低扫描行为的检测成本。

第一方面，本发明实施例提供了一种基于机器学习贝叶斯算法的防扫描方法，其中，该方法应用于服务器，该方法包括：采集客户端当前访问行为的访问日志；从访问日志中提取访问日志的特征值；将特征值输入至预设的扫描行为识别模型中，输出识别结果；扫描行为识别模型通过朴素贝叶斯算法模型训练得到；如果识别结果表明当前访问行为为扫描行为，识别当前访问行为对应的IP地址；在网络层拦截IP地址发出的访问行为。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，从访问日志中提取访问日志的特征值的步骤包括：去除访问日志中日志数量不足两秒或不足100条的IP地址；对去除后的访问日志进行特征提取，得到访问日志的特征值。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，特征值包括响应码、过去两秒的日志量角度的正切值、过去两秒和本次访问日志相同IP的个数占比、过去两秒和本次访问日志相同IP的404占比、过去两秒和本次访问日志相同IP的端口方差、过去100条日志和本次日志相同IP的个数占比、过去100条日志和本次日志相同IP的404占比，以及过去100条日志和本次日志相同IP的端口方差中的多种。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，该方法还包括：设置过去两秒相同IP不足100条端口的方差值为65535；设置过去100条日志相同IP不足3条端口的方差值为65535。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，扫描行为识别模型，具体通过下述方式得到：采集客户端访问日志样本；访问日志样本包括扫描器行为日志样本和正常访问日志样本；搭建初始的朴素贝叶斯算法模型；提取访问日志样本的特征值；将访问日志样本划分成指定份数，采用K折交叉验证法，轮流将至少一份访问日志样本的特征值输入至初始的朴素贝叶斯算法模型中进行训练，得到扫描行为识别模型；将剩余至少一份访问日志样本的特征值通过扫描行为识别模型进行识别，输出识别结果；对比识别结果与识别结果对应的访问日志样本的实际结果，得到扫描行为识别模型的准确率和召回率；准确率为识别结果和实际结果均为真的访问日志样本数量与识别结果为真的访问日志样本数量的比值；召回率为识别结果和实际结果均为真的访问日志样本数量与实际结果为真的访问日志样本数量的比值；根据准确率和召回率调整扫描行为识别模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司，未经杭州安恒信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810957134.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种分布式密码服务平台密钥管理的使用方法
下一篇：文件保护方法、装置、计算机设备及存储介质

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于机器学习贝叶斯算法的防扫描方法、装置和服务器在审

专利文献下载