[发明专利]基于网页关键内容相似性分析的钓鱼网站发现方法及系统有效

申请号：	201810505426.0	申请日：	2018-05-24
公开（公告）号：	CN108737423B	公开（公告）日：	2020-07-14
发明（设计）人：	臧天宁;强倩;杜飞;周渊	申请（专利权）人：	国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司
主分类号：	H04L29/06	分类号：	H04L29/06
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于网页关键内容相似性分析的钓鱼网站发现方法和系统，属于计算机网络安全领域。本方法包括网页关键内容特征提取、网页关键内容特征聚类和网页关键内容相似性计算。相应提供的系统包括网页主题分类器、关键内容提取器、特征抽取及聚合模块、相似度计算引擎和样本特征管理模块。通过网页主题分类器聚焦可疑的URL，防止不必要的特征过拟合，然后对待分析网页进一步通过关键内容提取器和相似度计算引擎来获得判断结果。本发明应用在网络关口URL检测，每个URL网页的检测时间为微秒级，正确率在97.5％以上，可实现快速、准确、稳定的钓鱼网站检测。
搜索关键词：	基于网页关键内容相似性分析钓鱼网站发现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网页关键内容相似性分析的钓鱼网站发现方法，其特征在于，包括网页关键内容特征学习和网页关键内容相似性计算；其中，网页关键内容特征学习包括网页关键内容特征提取和网页关键内容特征聚类；所述的网页关键内容特征提取将每个钓鱼网站网页映射为一个二元组，包括：步骤1.1，根据仿冒的目标对象，对带标签label的钓鱼网站URL进行分类；对每类都执行下面步骤1.2～1.7；label用于标记网页所仿冒的目标对象类型；步骤1.2，下载各URL对应的web页面源码，并将其转换为预设的字符码；步骤1.3，根据URL的页面代码构建网页的文档对象模型树，提取标签下的文本，在提取时去除非打印字符和标点符号，只保留数字、字母和中文字符；步骤1.4，对提取的文本，按照2～8字符的长度进行关键词提取，为每个页面形成一个词向量；每个页面的词向量中的词唯一，没有重复；步骤1.5，将词向量规范化，删除词向量中的具体时间词、指标的具体度量值、干扰词、广告和第三方的链接词；步骤1.6，对词向量进行simhash运算，每个词向量对应生成一个39位的数字串；步骤1.7，对每一个URL网页的内容，映射成一个二元组对；simhash为由步骤1.6计算得到的网页对应的词向量的simhash值，label为网页的标签；所述的网页关键内容特征聚类将每类钓鱼网站的simhash值依据海明距离进行聚类，对每一类钓鱼网站计算获取一组特征属性值；所述的网页关键内容相似性根据每类钓鱼网站的特征属性值，对待比较的URL进行相似性计算，来判断待比较的URL是否为钓鱼网站。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司，未经国家计算机网络与信息安全管理中心;北京锐驰信安技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810505426.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于区块链的网络安全移动支付系统
下一篇：智能家居的权限共享方法、服务器、系统及可读存储介质

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于网页关键内容相似性分析的钓鱼网站发现方法及系统有效

专利文献下载