[发明专利]一种恶意网站识别方法、装置、电子设备及存储介质在审
| 申请号: | 202210539411.2 | 申请日: | 2022-05-18 |
| 公开(公告)号: | CN114900363A | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 唐宇飞;王顺 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
| 主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951;G06F16/182 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王燕 |
| 地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 恶意 网站 识别 方法 装置 电子设备 存储 介质 | ||
本发明提供一种恶意网站识别方法、装置、电子设备及存储介质,涉及网络安全领域,方法包括:获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息;利用网页指纹信息生成第一哈希值,以及利用网页特征信息生成第二哈希值;利用第一哈希值确定第一分区号,并将网页指纹信息分配至第一分区号对应的分区;分区的数量小于网页指纹信息的数量;利用第二哈希值确定第二分区号,并利用第二分区号对应的分区所具有的目标网页指纹信息对网页特征信息进行检测,以确定待检测网站是否属于恶意网站;可通过分区匹配方式降低恶意网站识别的匹配计算量,避免采用全量网页指纹信息进行恶意网站识别带来的效率低下问题,进而可提升恶意网站的识别速率。
技术领域
本发明涉及网络安全领域,特别涉及一种恶意网站识别方法、装置、电子设备及存储介质。
背景技术
恶意网站是指包含网络淫秽色情、网络赌博、网络诈骗等有害信息的网站。由于当下利用互联网新技术产生的新型网络犯罪形式层出不穷,且网络黑灰产也呈现出了黑灰色产业链的发展趋势,因此对恶意网站的及时发现及处理,对打击网络犯罪具有重要意义。
相关技术中,恶意网站识别方法通常已知恶意网站的网页指纹信息进行全量匹配识别。然而网页指纹信息的数量较大,上述方式容易增加匹配量,进而容易降低匹配效率及恶意网站识别速率。
发明内容
本发明的目的是提供一种恶意网站识别方法、装置、电子设备及存储介质,可通过分区匹配方式降低恶意网站识别的匹配计算量,进而可提升恶意网站的识别速率。
为解决上述技术问题,本发明提供一种恶意网站识别方法,包括:
获取恶意网站的网页指纹信息以及待检测网站对应的网页特征信息;
利用所述网页指纹信息生成第一哈希值,以及利用所述网页特征信息生成第二哈希值;
利用所述第一哈希值确定第一分区号,并将所述网页指纹信息分配至所述第一分区号对应的分区;所述分区的数量小于所述网页指纹信息的数量;
利用所述第二哈希值确定第二分区号,并利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测,以确定所述待检测网站是否属于所述恶意网站。
可选地,所述获取待检测网站对应的网页特征信息,包括:
利用爬虫程序在所述待检测网站中提取初始网页特征信息;
利用JSON格式的预设模板整合所述初始网页特征信息,得到所述网页特征信息。
可选地,在得到所述网页特征信息之后,还包括:
将所述网页特征信息转换为弹性分布式数据集;
相应的,所述利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测,包括:
利用所述目标网页指纹信息对转换为所述弹性分布式数据集的网页特征信息进行检测。
可选地,在将所述网页指纹信息分配至所述第一分区号对应的分区之后,还包括:
将所述网页指纹信息保存至所述第一分区号对应的分区所属的分布式存储中。
可选地,所述利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测,包括:
在Spark计算平台中,将所述目标网页指纹信息输入至基于有向无环图构建的检测框架中;
利用所述检测框架对所述网页特征信息进行检测。
可选地,在利用所述第二分区号对应的分区所具有的目标网页指纹信息对所述网页特征信息进行检测之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210539411.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于液压翻板卸车机的液压系统
- 下一篇:一种无氟抗菌防油纸的制备方法





