[发明专利]基于URI的分类模型的构建方法和Webshell攻击网站的检测方法有效
申请号: | 201711276201.4 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107888616B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 陈金战;杨旭;张通 | 申请(专利权)人: | 北京知道创宇信息技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 uri 分类 模型 构建 方法 webshell 攻击 网站 检测 | ||
1.一种基于URI的分类模型的构建方法,在计算设备中执行,适于区分正常访问网站的URI和疑似被Webshell攻击网站的URI,该方法包括:
分别获取多条已确认为正常访问网站的访问日志作为正样本数据,以及多条已确认为Webshell攻击网站的访问日志作为负样本数据,其中每条访问日志中包括请求资源的URI以及与该URI相关联的访问数据;
分别从正样本数据和负样本数据中提取针对同一URI的多条访问日志,根据该多条访问日志的访问数据计算该URI的多个URI特征值,并将该多个URI特征值构造为一条URI特征向量;
根据正样本数据中各URI的URI特征向量及其对应的正样本标识生成第一正样本集,以及根据负样本数据中各URI的URI特征向量及其对应的负样本标识生成第一负样本集;以及
根据所述第一正样本集和第一负样本集生成第一训练集,并以该第一训练集中各样本的URI特征向量为输入,以其样本标识为输出,采用预定算法对所述第一训练集进行训练,得到所述基于URI的分类模型;
其中所述多个URI特征值包括以下特征值中的一种或多种:访问URI的客户端IP数量、访问URI的总次数、访问URI中返回失败次数比率、访问URI中被WAF拦截请求比率、访问的URI是否有命中CDN、访问URI中请求参数变化次数。
2.如权利要求1所述的方法,其中,所述访问日志的访问数据包括以下参数中的一种或多种:
请求用户的IP、请求方法、请求返回的状态码、CDN命中状态、防火墙检测的攻击类型、请求参数、开始请求时间和请求报文长度。
3.如权利要求2所述的方法,其中,
所述访问URI的客户端IP数量适于根据请求用户的IP计算;
所述访问URI的总次数适于根据请求返回的状态码或防火墙检测的攻击类型计算;
所述访问URI中返回失败次数比率适于根据请求返回的状态码计算;
所述访问URI中被防火墙拦截请求比率适于根据防火墙检测的攻击类型计算;
所述访问的URI是否有命中CDN适于根据CDN命中状态确定;以及
所述访问URI中请求参数变化次数适于根据请求参数计算。
4.如权利要求3所述的方法,其中,所述根据该多条访问日志的访问数据计算该URI的多个URI特征值的步骤包括:
将正样本数据和负样本数据按照各字段的含义转化为数据框;以及
将该数据框按照URI聚合,得到各访问数据的数据列,并从各数据列中提取对应的URI特征值;
其中,请求用户的IP、CDN命中状态、请求参数适于采用collect_set方法生成数据列,请求返回的状态码和防火墙检测的攻击类型适于采用collect_list方法生成数据列。
5.如权利要求1所述的方法,其中,还包括步骤:
根据所述第一正样本集和第一负样本集生成第一验证集;
将第一验证集中各样本的URI特征向量输入到所述基于URI的分类模型中,预测得到各样本的样本标识;以及
将预测得到的各样本的样本标识与其实际样本标识作对比,计算所述基于URI的分类模型的准确性。
6.如权利要求5所述的方法中,其中,所述第一训练集和第一验证集适于根据以下方法生成:
分别将所述第一正样本集和第一负样本集随机分成两组;以及
任选其中一组第一正样本集和一组第一负样本集合并后作为所述第一训练集,并将另一组第一正样本集和另一组第一负样本集合并后作为所述第一验证集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道创宇信息技术股份有限公司,未经北京知道创宇信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711276201.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水杯
- 下一篇:转换阀和可变压缩比内燃机的连杆