[发明专利]一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法在审
申请号: | 201710843991.3 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107566389A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 张永斌;姚强 | 申请(专利权)人: | 济南互信软件有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 山东省济南市高新区舜华路*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 c4 决策树 模仿 url 链接 钓鱼 域名 识别 方法 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法。
背景技术
网络钓鱼是一种电子盗窃行为,通过在电子商务中伪装成一个值得信赖的实体来从毫无怀疑的用户那里获取敏感信息。随着互联网的普及,网络钓鱼对上网用户造成的危害越来越普遍,网络中存在大量钓鱼网站。反钓鱼工作组(Anti-Phishing Working Group,APWG)在2016年第4季度发现1,220,523次钓鱼攻击[1]。中国反钓鱼联盟(Anti-Phishing Alliance of China,APAC)在2017年第1季度共发现4,958个钓鱼网站[2]。钓鱼形势相当严峻,对网络环境构成严重的影响。研究发现:钓鱼域名中大量域名存在明显特征,例如:www.paypal.com.signin.country.en.locale.en.diamondzapper.com,缺乏网络知识的用户极容易将此类域名看作URL链接。本文称这类域名为模仿URL链接域名。由于该类域名对用户的迷惑性更强,由此快速评估此类域名的安全性,对提高用户上网体验、净化网络有着重要的意义。
发明内容
本发明提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,提取其中的高危域名,实时检测该类域名的安全性。
为解决上述技术问题,本申请实施例提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,包括以下步骤:
S1、提取模仿URL链接的域名及特征;
S2、基于C4.5算法对模仿URL链接的域名进行分类,构建分类树;
S3、对于符合分类树内类型的域名进行拦截。
作为本发明的一个优选的技术方案,模仿URL链接的域名及特征为:
1)域名级数较高、长度较长;
2)域名字符转换频率高,连续字母最大长度较短或连续数字最大长度较短;
3)域名的连字符数目较高;
4)域名包含品牌名,且品牌名的位置较明显;
5)最长子域名级数较高。
作为本发明的一个优选的技术方案,所述的分类树的构建方法如下:
Step1:对样本数据进行预处理,规范数据格式以形成决策树的训练集;
Step2:计算各属性的信息增益率;
假设训练样本集合为S,训练样本被分为k类,即为C={C1,C2,...,Ck},p(Si)表示样本属于Ci的比例,此时集合S的信息熵如式(1)所示,
假设属性集为A,且A={A1,A2,...,Am},选择Aj为测试属性来划分样本,并设Values(Aj)为Aj的值域,则属性Aj的信息增益如式(2)所示,
式中:|S|表示样本集合的元素数量,|Sv|为样本集合S中属性Aj值为v的元素数量,此时,可得属性A分裂样本集S的广度和均匀性,如式(3)所示,
由此,通过信息增益与分裂信息可求出属性Aj的信息增益率,如式4所示,
Step3:构建决策树模型
挑选具有最高信息增益率的属性(比如最大子域名级数)作为决策树的根节点。在剩下的候选属性中选择具有最高信息增益率的属性作为分叉节点,递归形成决策树模型。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
可提取其中的高危域名,实时检测该类域名的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的流程框架结构示意图;
图2是本申请实施例域名的品牌名位置明显度分布图;
图3是本申请实施例域名连续字母最大长度分布图;
图4是本申请实施例图连续数字的最大长度图;
图5是本申请实施例图最长子域名明显度图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南互信软件有限公司,未经济南互信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710843991.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工控漏洞探测方法、装置及系统
- 下一篇:一种方壳动力电池模组顶盖