[发明专利]基于网页关键内容相似性分析的钓鱼网站发现方法及系统有效
| 申请号: | 201810505426.0 | 申请日: | 2018-05-24 |
| 公开(公告)号: | CN108737423B | 公开(公告)日: | 2020-07-14 |
| 发明(设计)人: | 臧天宁;强倩;杜飞;周渊 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网页 关键 内容 相似性 分析 钓鱼 网站 发现 方法 系统 | ||
本发明公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法和系统,属于计算机网络安全领域。本方法包括网页关键内容特征提取、网页关键内容特征聚类和网页关键内容相似性计算。相应提供的系统包括网页主题分类器、关键内容提取器、特征抽取及聚合模块、相似度计算引擎和样本特征管理模块。通过网页主题分类器聚焦可疑的URL,防止不必要的特征过拟合,然后对待分析网页进一步通过关键内容提取器和相似度计算引擎来获得判断结果。本发明应用在网络关口URL检测,每个URL网页的检测时间为微秒级,正确率在97.5%以上,可实现快速、准确、稳定的钓鱼网站检测。
技术领域
本发明属于计算机网络安全领域,具体涉及一种基于网页关键内容相似性分析的钓鱼网站发现方法及其系统。
背景技术
随着互联网技术的发展,尤其是智能终端设备的普及,在给人们提供便利信息的同时也为钓鱼网站(是指通过垃圾邮件、即时通信、社交网络等信息载体,发布欺诈性消息,骗取网络用户访问的仿冒网站)的传播提供了更多的渠道。伴随电子商务的普及和推广,与银行诈骗相关的网络钓鱼事件频繁发生,其危害程度呈现逐年增长的趋势。在国内,每天产生数千亿的URL(Uniform Resoure Locator,统一资源定位符)访问行为,这些钓鱼URL链接在传播的过程中被及时发现,并对其进行实时的处理,将在很大程度上降低钓鱼网站的传播和危害。
现有的一些钓鱼网站的发现技术主要包括以下几种方式:
(1)基于URL的检测技术,通过分析钓鱼网站URL的表现形式,如URL过长、IP替代域名、不常采用的字符@、可疑域名等,以此来判断钓鱼网站[1-4]。
(2)基于机器学习的算法计算分析,通常选择一些钓鱼网站的异常特征作为用来训练机器的特征向量,由此形成分类器算法,并以此分类器来判别钓鱼网站[5]。
(3)基于视觉相似度的检测技术,曹久新等人提出了一个基于嵌套EMD(EarthMover’s Distance)的网页相似度判定算法,对Web网页图像进行分割,利用分割后的子图特征来构建网页的ARG(Attributed Relational Graph)。计算得到不同的AGR属性的距离后,通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度,进而实现对钓鱼网站的高精度检测[6]。
(4)基于文档结构的检测技术,郭敏哲等人分析了Web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征。通过利用BP(Back Propagation)神经网络来对被测网站的异常程度进行检测。并通过线性分类器分析检测到的异常程度,来判断该网站是否为钓鱼网站[7]。
(5)其它类型的检测技术,黄华军等人提出基于半脆弱水印的网络钓鱼主动防御[8];Huang H.J等提出了基于异常特征钓鱼URL检测算法[9];张健毅等人提出一种对文本语义理解的网络钓鱼检查算法[10]等等。
以上的技术中,基于URL的检测技术可以快速定位目标,但缺点是误报率较大;基于机器学习的算法计算开销大,性能提升成为主要的瓶颈;基于视觉相似性的技术算法复杂,占用空间大,需要大量的样本做分析计算,对于海量的URL而言,不具有普适性;基于文档结构的检测技术存在特征泛化能力弱,需要频繁替换特征的问题。
参考文献如:
[1]Huang C.,Ma S,Chen K.,Using One-Time Passwords to Prevent PasswordPhishing Attacks[J].Journal of Network and Computer Applications.2011,34(4):1292-1301.
[2]Garera S.,Provos N.,Chew M..A Framework for detection andMeasurement of Phishing Attacks[C].In:Proc.of WORM’07,2007:1-8.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司,未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810505426.0/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





