[发明专利]基于机器学习的钓鱼网站URL检测方法及系统在审
申请号: | 202110231656.4 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112948725A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 于金龙;王智民;王高杰;卯路宁 | 申请(专利权)人: | 北京六方云信息技术有限公司;北京六方云科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06N20/00 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 钓鱼 网站 url 检测 方法 系统 | ||
本发明提供一种基于机器学习的钓鱼网站URL检测方法及系统,属于信息安全领域。所述方法包括:对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。与传统的黑名单技术相比,本发明的URL检测方法从URL中提取特征训练模型进行预测,覆盖范围更广,检测结果更加准确,采用训练好的URL模型进行检测,不需要频繁进行更新,且占用资源较少,普通计算机也能够运行,满足广大用户的需求。
技术领域
本发明涉及信息安全领域,具体地涉及一种基于机器学习的钓鱼网站URL检测方法以及一种基于机器学习的钓鱼网站URL检测系统。
背景技术
网络钓鱼是当今互联网上的一个主要问题,由于犯罪分子的欺骗手段,许多用户正成为受害者。网络钓鱼是一种欺诈性技术,以电子邮件欺骗作为其最初媒介进行欺骗性通信,然后通过欺骗性网站从受害者那里获取所需信息,例如用户名、密码、信用卡和银行帐户等信息。
电子邮件中请求的操作通常是打开Web链接并在Web页面上填写个人敏感信息,或作为对电子邮件的答复来提供其个人身份或银行信息。用户单击欺骗性电子邮件中提供的Web链接后,将被定向到由网络钓鱼者创建的网络钓鱼网站。由于该网络钓鱼网站看起来与原始网站相似,因此,用户常常无法将其识别为恶意网站,并且按要求输入所要求的信息,从而被成功网络钓鱼。除电子邮件外,攻击者还可以通过在真实网站上嵌入广告宣传链接来引导用户访问恶意链接。此外,在某些情况下,受感染的DNS可能导致用户重定向到异常网站和钓鱼网站。
黑名单技术仍然是用户抵御此类网络钓鱼网站的最常见防御措施,使用近似匹配算法来检查可疑URL是否存在于黑名单中。但该方法存在如下不能解决的技术问题:
1、黑名单是一种被动的防御方法,需要不断维护,经常更新(删除已经过期的URL,添加新的钓鱼网站URL),这并不是一件简单的事。
2、攻击者在破坏网络钓鱼网页之后,可能会将其植入到被认为是安全的服务器中,在这种情况下,基于黑名单的方法将无法检测到钓鱼网站。
3、系统无法应对黑名单数量不断增长的情况,随着时间的增长,黑名单数量也越来越多,黑名单数据会占用越来越多的系统资源。因此黑名单技术已经无法满足用户的需求。
发明内容
本发明实施方式的目的是提供一种基于机器学习的钓鱼网站URL检测方法及系统,与传统的黑名单技术相比,本发明的URL检测方法从URL中提取特征训练模型进行预测,覆盖范围更广,检测结果更加准确,采用训练好的URL模型进行检测,不需要频繁进行更新,且占用资源较少,普通计算机也能够运行,满足广大用户的需求。
为了实现上述目的,本发明第一方面提供一种基于机器学习的钓鱼网站URL检测方法,所述方法包括:
对待测URL进行解析,提取待测URL的结构信息和组成待测URL的单词;
根据所述待测URL、所述待测URL的结构信息和组成待测URL的单词提取URL特征;
将所述URL特征输入训练好的URL检测模型进行检测,得到待测URL为异常URL的概率。
可选的,所述URL的结构信息包括:URL子域名、URL域名、URL后缀和URL路径;所述对待测URL进行解析,提取URL的结构信息和组成待测URL的单词,包括:
对待测URL进行解析,按照URL的结构提取URL的结构信息;
根据特殊字符对URL进行划分,提取组成待测URL的单词。将URL解析分解后能够提取出更准确的特征,从而提高检测准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京六方云信息技术有限公司;北京六方云科技有限公司,未经北京六方云信息技术有限公司;北京六方云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231656.4/2.html,转载请声明来源钻瓜专利网。