[发明专利]基于DOM树的标签及属性相似性的恶意域名检测方法在审
申请号: | 201910327562.X | 申请日: | 2019-04-23 |
公开(公告)号: | CN110049052A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 张兆心;刘晓燕;程亚楠;许海燕;闫健恩 | 申请(专利权)人: | 哈尔滨工业大学(威海) |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二进制串 域名检测 数据库 标签 网络安全系统 恶意性 检测率 相似度 转化 采集 应用 | ||
本发明提供一种基于DOM树的标签及属性相似性的恶意域名检测方法,其解决了现有恶意域名检测方法检测率低、准确性差的技术问题。该方法包括:采集恶意类型域名集,将恶意域名集转化成二进制串存入数据库;将未知类型的域名转化为二进制串;将未知类型域名对应的二进制串与数据库中恶意类型域名集的二进制串对比,通过二者相似度来判断该未知类型域名的恶意性。本发明可广泛应用于网络安全系统中。
技术领域
本发明涉及一种恶意域名检测方法,特别是涉及一种基于DOM树的标签及属性相似性的恶意域名检测方法。
背景技术
近年来,各类恶意域名数量的持续增长对广大用户的个人隐私、财产安全甚至身心健康造成的巨大威胁,恶意域名的存在严重阻碍着互联网的健康发展。虽然恶意域名数量庞大,但是在实际情况中恶意域名注册者为了达到低成本、快速、大量生成恶意域名的目的,会注册大量不同的域名,但这些域名的网页结构相同或相似。
目前从恶意域名对应的网页研究角度出发的恶意域名检测方法主要依赖于网页内容,但是网页内容的不断变化使得从恶意域名的网页内容相似性这一角度出发进行恶意域名的检测率较低,极大地影响了恶意域名网页的识别率,准确性差。
发明内容
本发明针对现有恶意域名检测方法检测率低、准确性差的技术问题,提供一种准确性高、效率高的基于DOM树的标签及属性相似性的恶意域名检测方法。
为此,本发明的技术方案是,一种基于DOM树的标签及属性相似性的恶意域名检测方法,包括:
采集恶意类型域名集,将恶意域名集转化成二进制串存入数据库;
将未知类型的域名转化为二进制串;
将未知类型域名对应的二进制串与数据库中恶意类型域名集的二进制串对比,通过二者相似度来判断该未知类型域名的恶意性。
优选的,将恶意域名集转化成二进制串的步骤为:
(1)获取恶意域名集中每个域名对应的网页加载过程完成后的HTML文档;
(2)构造HTML文档对应的DOM树;
(3)从每棵DOM树中提取一定层数内的节点标签名及对应的全部属性名,将提取到的标签名及属性名的文本序列转化为二进制串。
优选的,构造HTML文档对应的DOM树具体方法为:利用Python第三方解析库将HTML文档解析成DOM树。
优选的,提取DOM树的标签名和属性名构造文本序列的方法为:对于域名中每个域名的DOM树按照一定的搜索遍历方法遍历一定层数内的每个节点,提取相应节点的标签名和属性名将DOM树结构转为文本序列。
优选的,DOM树的搜索遍历方法采用广度搜索遍历的方法。
优选的,DOM树为包含节点间层次化关系的DOM树。
优选的,标签名及属性名的文本序列利用Simhash算法转化为二进制串。
优选的,将未知类型的域名转化为二进制串的过程与恶意域名集转化成二进制串的过程相同。
优选的,未知类型域名采用二进制串判断恶意性的过程为:将未知类型域名对应的二进制串与恶意类型域名集对应的二进制串比较,当相似性超过阈值时不能判断该域名的类型;当相似性在阈值内时,则认定两者相似,从而检测出该未知类型域名为恶意性。
优选的,进行二进制串相似性比较时,将未知类型域名对应的二进制串与数据库中的每个二进制串逐一进行两两比较,计算得到二者间的海明距离,采用海明距离来衡量二者的相似性。
本发明有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910327562.X/2.html,转载请声明来源钻瓜专利网。