[发明专利]一种用于恶意WebShell检测的深度集成学习模型构建方法在审
| 申请号: | 202110321377.7 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN112948834A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 艾壮;陆亚平 | 申请(专利权)人: | 国药(武汉)医学实验室有限公司 |
| 主分类号: | G06F21/56 | 分类号: | G06F21/56 |
| 代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 谢洋 |
| 地址: | 430000 湖北省武汉市东湖新技术开发区*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 恶意 webshell 检测 深度 集成 学习 模型 构建 方法 | ||
1.一种用于恶意WebShell检测的深度集成学习模型构建方法,其特征在于,包括以下步骤:
获取构建模型需要的正常样本与恶意WebShell样本,并将正常样本和恶意WebShell随机打乱,按照4:1的比例分为训练集和测试集;
分别提取训练集和测试集中各个样本的动态特征和静态特征并进行组合,得到训练集特征集合和测试集特征集合;
选取m个基分类器,m≥3,利用所述训练集特征集合,采用K折交叉验证方法对深度集成学习模型进行训练,得到各基分类器的权重值;
利用所述测试集特征集合作为所述深度集成学习模型的输入,进行模型测试,得到测试集样本的综合平均预测概率值,并根据所述综合平均预测概率值对所述深度集成学习模型进行评估。
2.根据权利要求1所述的方法,其特征在于,获取构建模型需要的正常样本与恶意WebShell样本时,对获取的样本文件执行去重操作。
3.根据权利要求1所述的方法,其特征在于,所述动态特征包括操作码序列动态特征,所述静态特征包括字符串长度特征、文件重合指数IC特征、信息熵特征、特征码匹配特征。
4.根据权利要求1所述的方法,其特征在于,所述的分别提取训练集和测试集中各个样本的动态特征和静态特征并进行组合,得到训练集特征集合和测试集特征集合,包括:
针对训练集特征集合:
使用TF-IDF对训练集中各个样本的动态特征进行unigrams,4-grams特征向量化,然后利用随机森林算法对动态特征进行两次筛选;
将经过两次筛选后的动态特征与对应样本的静态特征进行组合共同作为各自样本的特征;训练集中所有样本的组合后的特征构成训练集特征集合;
针对测试集特征集合:
使用TF-IDF对测试集的动态特征进行4-grams特征向量化。
5.根据权利要求4所述的方法,其特征在于,所述的使用TF-IDF对训练集中各个样本的动态特征进行unigrams,4-grams特征向量化,然后利用随机森林算法对动态特征进行两次筛选,包括:
使用TF-IDF对训练集中各个样本的动态特征进行unigrams,4-grams特征向量化;
使用随机森林算法对通过unigrams得到的特征向量进行重要性分析,得到每一个特征的重要性分数值;
根据4-grams特征向量中所包含的每一个特征的重要性分数值,叠加计算得到4-grams特征向量的重要性分数值;
将重要性分数值大于0的4-grams特征向量保留,从而实现动态特征的第一次筛选;
利用随机森林算法对第一次筛选后的动态特征进行再次筛选。
6.根据权利要求4所述的方法,其特征在于,对比训练集特征集合和测试集特征集合,若某一特征在测试集特征集合中存在而训练集特征集合中不存在,则将该特征从测试集特征集合中删除,若某一特征仅存在与训练集特征集合中,则在测试集特征集合中添加该特征,且特征值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国药(武汉)医学实验室有限公司,未经国药(武汉)医学实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321377.7/1.html,转载请声明来源钻瓜专利网。





