[发明专利]恶意网站检测方法、装置、电子设备和计算机存储介质有效
申请号: | 202111494956.8 | 申请日: | 2021-12-09 |
公开(公告)号: | CN113901376B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 徐桂忠 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35;G06F40/279;G06K9/62 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 恶意 网站 检测 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种恶意网站检测方法,其特征在于,所述方法包括:
基于获取的各个待检测网站的域名和/或网页内容,确定各个所述待检测网站中的疑似恶意网站;
根据每个所述疑似恶意网站的所述网页内容包括的文本内容,确定每个所述疑似恶意网站的文本特征;
基于预训练的聚类模型,根据每个所述疑似恶意网站的所述文本特征,对每个所述疑似恶意网站进行聚类处理,将所述文本特征相同或相似的所述疑似恶意网站聚为一类,得到每个所述疑似恶意网站对应的聚类类别,所述预训练的聚类模型是预先根据样本文本特征的词向量对预定聚类方法进行训练得到的;
基于预设的敏感词库,分别确定每个所述聚类类别的敏感类型,以得到所述聚类类别对应的每个所述疑似恶意网站的敏感类型;其中,所述敏感词库包括动态更新的多个敏感类型的敏感词;
根据所述疑似恶意网站的敏感类型,确定所述疑似恶意网站的风险等级,并基于所述风险等级确定所述疑似恶意网站是否为恶意网站;
所述基于预设的敏感词库,分别确定每个所述聚类类别的敏感类型,以得到所述聚类类别对应的每个所述疑似恶意网站的敏感类型,包括:
基于所述敏感词库中的敏感词及其敏感类型,分别确定每个所述聚类类别对应的所述疑似恶意网站的所述文本内容包含的各个敏感类型的敏感词数量,以确定每个所述聚类类别对应的各个敏感类型的敏感词数量;
依据所述敏感词数量的大小,分别对每个所述聚类类别对应的各个敏感类型进行排序;
将各个所述聚类类别对应的排序后的前Y个敏感类型作为各个所述聚类类别的敏感类型,以将各个所述疑似恶意网站的敏感类型设置为其对应的所述聚类类别的敏感类型,其中,Y为正整数。
2.根据权利要求1所述的方法,其特征在于,所述基于获取的各个待检测网站的域名和/或网页内容,确定各个所述待检测网站中的疑似恶意网站,包括:
分别判断各个所述待检测网站的域名是否存在于预设的域名白名单中,其中,所述域名白名单包括多个域名;
响应于所述待检测网站的域名不存在于所述域名白名单中,获取并解析所述待检测网站的网页内容,并从所述网页内容中获取预设种类的文本信息;
基于所述敏感词库,从域名不存在于所述域名白名单中的各个所述待检测网站中,筛选出所述文本信息满足预定条件的网站并将其确定为所述疑似恶意网站,所述预定条件包括所述文本信息命中所述敏感词库中的至少一个敏感词且所述文本信息不包括预设备案登记信息。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述疑似恶意网站的所述网页内容包括的文本内容,确定每个所述疑似恶意网站的文本特征,包括:
分别对每个所述疑似恶意网站的所述文本信息进行预处理,得到每个所述疑似恶意网站的所述文本内容;
对每个所述疑似恶意网站,统计所述文本内容中所有词语的词频,依据词频对所述所有词语进行降序排序,将排序后的前X个词语作为所述文本特征,X为正整数。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述预训练的聚类模型通过以下步骤训练得到:
将各个所述疑似恶意网站的所述文本特征作为所述样本文本特征,使用word2vec预训练模型生成词向量模型,得到所述样本文本特征的词向量;
根据所述样本文本特征的词向量,对K-means聚类方法进行训练,以得到所述预训练的聚类模型。
5.根据权利要求1至3任一项所述的方法,其特征在于,在基于所述风险等级确定所述疑似恶意网站是否为恶意网站之后,所述方法还包括:
从所述恶意网站的所述网页内容中提取敏感关键词,并将所述敏感关键词更新至所述敏感词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111494956.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:物品种类识别装置
- 下一篇:一种CAN总线转车载以太网总线的网关系统设计方法