[发明专利]基于深度学习的钓鱼网页层次化检测方法及系统有效
申请号: | 202110221392.4 | 申请日: | 2021-02-27 |
公开(公告)号: | CN113037729B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 陈博;张桥;卜佑军;周锟;王方玉;伊鹏;马海龙;胡宇翔;张稣荣;路祥雨;王继;张进 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N3/04;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 钓鱼 网页 层次 检测 方法 系统 | ||
本发明属于网络安全技术领域,特别涉及一种基于深度学习的钓鱼网页层次化检测方法及系统,包含:利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;基于敏感词对待测URL分词,并通过词嵌入矩阵将分词后的URL转化为特征向量矩阵;利用已训练的卷积神经网络CNN提取特征向量矩阵中的局部特征,并结合双向长短记忆网络Bi‑LSTM提取特征向量中的长距离依赖特征;针对长距离依赖特征,利用网络全连接层来获取待测URL属于钓鱼网页的概率并判定待测URL类型。本发明结合黑名单和深度学习的优点,通过拦截并自动提取特征检测未知的钓鱼网页,检测模型提取更为充分的特征,提升对钓鱼网页的检测能力,检测速度快、准确率高,具有较好的应用前景。
技术领域
本发明属于网络安全技术领域,特别涉及一种基于深度学习的钓鱼网页层次化检测方法 及系统。
背景技术
近年来,互联网快速发展,基于互联网的应用如在线购物,电子商务,网络社交等为人 们的工作、生活、娱乐带来了巨大便利。因此,越来越多的人开始接触、使用互联网。据中 国互联网络信息中心CNNIC统计,截至2020年3月,中国网民规模达9.04亿,互联网普及率 达64.5%。与此同时,网民信息亦面临着安全威胁,如网络攻击者通过网络钓鱼。窃取个人 敏感信息进而获取经济利益。因此,如何及时、有效地检测钓鱼网页已经成为亟待解决的问 题。
针对钓鱼网页,当前主要有三类检测方法:基于黑名单检测,基于网页内容特征检测, 基于URL特征检测。其中,基于黑名单检测是一种传统的钓鱼网站检测方法,只需进行简单 的数据库查询操作,因此实现简单且检测速度快,但该方法过度依赖黑名单的规模,无法识 别新出现而未在黑名单中的钓鱼网址。基于网页内容特征检测,根据网页内容相似度来判别 网页的合法性或者利用机器学习训练生成一个检测模型来识别钓鱼网页。钓鱼网页经常使用 大量被模仿网页的信息,如CSS架构、Logo、布局等,与被模仿合法网页具有较高的相似度, 通过计算与合法网页的相似度来检测钓鱼网页具有较高的检测准确率,但该类方法往往会先 收集大量的合法网页,构造一个参照集,然后将待测网页与参照集中的每个网页进行相似度 计算,取其中的最大值与预先定义好的阈值进行比较,所以这种检测方式计算复杂度高且检 测速率低,很难应用于实际场景。利用机器学习来检测钓鱼网页也有很大的局限性:需要大 量的手动特征工程,其中许多特征需要相关专家来确认;需要获取网页内容,增加了客户端 开销和风险且检测算法的时间复杂度高;某些钓鱼网站能够隐藏其网页内容。基于URL特征 检测,利用机器学习或深度学习训练生成一个检测模型来检测钓鱼网页。利用机器学习检测钓 鱼网页需要人工提取URL的结构特征(如URL中“.”的个数,URL长度等)和主机特征(WHOIS 信息,位置信息等)。因此其性能严重依赖于人工提取的特征的好坏,且因特征较为固定容易 被钓鱼攻击者绕开其检测模型。利用深度学习技术可以自动提取URL的特征来检测钓鱼网页, 当前已有的方法大都使用“.”,“/”等特殊字符或者逐个字符对URL划分,然后使用单一的 神经网络模型提取URL特征以对URL进行分类。这种方法存在以下的弊端:利用特殊字符划 分URL可能会使单词的数量相当大,造成该数据集的特征也按比例地增大,导致在进行特征 向量的转换时内存受到限制;在测试检测模型时无法获取新出现单词的嵌入向量表示;利用 特殊字符如“.”、“\”、“?”等对URL分词时没有获取这些特殊字符所具有的有效信息:特 殊字符的分布与类型;特殊字符与周围词的前后关系;逐个字符划分URL会导致钓鱼URL中 存在一些特有的敏感词,如“login”、“password”、“registed”等丢失有效信息;使用单一 的神经网络模型如卷积神经网络对URL的特征提取不充分。
发明内容
为此,本发明提供一种基于深度学习的钓鱼网页层次化检测方法及系统,结合黑名单和 深度学习的优点,通过拦截并自动提取特征检测未知的钓鱼网页,检测模型提取更为充分的 特征,提升对钓鱼网页的检测能力,检测速度快、准确率高。
按照本发明所提供的设计方案,提供一种基于深度学习的钓鱼网页层次化检测方法,包 含:
利用黑名单对待测URL进行匹配,拦截已知钓鱼网页;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室,未经中国人民解放军战略支援部队信息工程大学;网络通信与安全紫金山实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110221392.4/2.html,转载请声明来源钻瓜专利网。