[发明专利]一种网页请求识别方法及装置有效
申请号: | 201711013266.X | 申请日: | 2017-10-26 |
公开(公告)号: | CN108881138B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 贾若然;顾成杰 | 申请(专利权)人: | 新华三信息安全技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 230001 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 请求 识别 方法 装置 | ||
1.一种网页请求识别方法,其特征在于,所述方法包括:
获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
确定每一样本网页请求的结构特征;
对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算每一样本网页请求的每一文本词语的权重;
对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
2.根据权利要求1所述的方法,其特征在于,所述确定每一样本网页请求的结构特征的步骤,包括:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
3.根据权利要求1所述的方法,其特征在于,所述对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语的步骤,包括:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
4.根据权利要求1所述的方法,其特征在于,所述计算每一样本网页请求的每一文本词语的权重的步骤,包括:
对于每一样本网页请求的每一文本词语,根据以下公式确定该文本词语的逆向文件频率IDF:
IDF=log(M/m);
其中,M为语料库中与该样本网页请求路径相同的网页请求的个数,m为所述语料库中包括该文本词语的网页请求的个数;
根据以下公式确定该文本词语的权重δ:
δ=TF*IDF;
其中,TF为该文本词语在该样本网页请求的文本词语中出现的次数。
5.根据权利要求1所述的方法,其特征在于,所述基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型的步骤,包括:
基于支持向量机算法和随机梯度下降算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型。
6.一种网页请求识别装置,其特征在于,所述装置包括:
获取单元,用于获取多个标记有标签的样本网页请求;所述标签包括用于指示网页请求为恶意网页请求的标签或用于指示网页请求为非恶意网页请求的标签;
第一确定单元,用于确定每一样本网页请求的结构特征;
分词单元,用于对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语;
计算单元,用于计算每一样本网页请求的每一文本词语的权重;
第二确定单元,用于对于每一样本网页请求,根据该样本网页请求的结构特征和该样本网页请求的每一文本词语的权重,确定该样本网页请求的特征向量;
训练单元,用于基于机器学习算法,根据每一样本网页请求的特征向量和每一样本网页请求的标签训练网页请求识别模型;
识别单元,用于当获取到待识别网页请求时,利用所述网页请求识别模型识别所述待识别网页请求,确定所述待识别网页请求是否为恶意网页请求。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于:
根据网页请求中参数个数、参数值平均长度和非法参数个数,确定每一样本网页请求的结构特征。
8.根据权利要求6所述的装置,其特征在于,所述分词单元,具体用于:
利用网页请求的分隔符对每一样本网页请求的文本信息进行分词,获得每一样本网页请求的文本词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三信息安全技术有限公司,未经新华三信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711013266.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多媒体数据的处理方法和视联网终端
- 下一篇:一种视频通信的方法和装置