[发明专利]一种被黑网站检测方法及系统在审

专利信息
申请号: 201711115196.9 申请日: 2017-11-13
公开(公告)号: CN107911360A 公开(公告)日: 2018-04-13
发明(设计)人: 武思妍;佟晓筠;辛国栋;王巍;王佰玲;刘扬 申请(专利权)人: 哈尔滨工业大学(威海)
主分类号: H04L29/06 分类号: H04L29/06;G06F17/30
代理公司: 济南金迪知识产权代理有限公司37219 代理人: 杨树云
地址: 264209 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种被黑网站检测方法及系统,包括(1)获取原始数据;(2)数据清洗;(3)分别抽取出文本检测、图片检测、启发式检测所需的数据;(4)查询文本检测的索引库,返回相似度值S1;(5)采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S2;(6)相似度值S1和相似性S2线性融合;(7)如果融合结果S≥T,则判定该网站没有被黑,标记为0;否则,判定该网站被黑,标记为1;(8)采用决策树模型对待检测网页进行判断,输出结果为0(未被黑)或1(被黑),如果(7)、(8)至少有一个为1,则表示网页被黑,否则网页正常。本发明采取两种方式检测,根据阈值判断,精确度更高,可及时发现互联网中一些恶意网页或被黑网页。
搜索关键词: 一种 网站 检测 方法 系统
【主权项】:
一种被黑网站检测方法,其特征在于,包括步骤如下:(1)获取正常网页和被黑网页的URL、完整网页和完整网页的截图,正常网页的URL、完整网页和完整网页的截图即白名单数据集;被黑网页的URL、完整网页和完整网页的截图即黑名单数据集;(2)对步骤(1)获取的数据进行数据清洗,包括网页去重和缺失处理;(3)从步骤(2)处理后的数据中,提取网页的文本、结构和图片纹理特征,构造相应的特征库,分别从特征库中抽取出文本检测、图片检测、启发式检测所需的数据特征;抽取出文本检测所需的数据:从文本特征库中抽取出每个网页的title、ICP以及正文关键字keyword,并构建文本检测的索引库,进入步骤(4);抽取出图片检测所需的数据:抽取出每个网页的以下6个特征:子图像重心距离比、子图像重心相对整幅完整网页的截图顶点的夹角、子图的信息熵、子图的偏心率、子图的圆形性、子图的Hu矩;完整网页经过切割后形成的子图,子图像重心距离比是指:子图与整幅图像重心间距离与整幅图像对角线长度的比值;子图像重心相对整幅完整网页的截图顶点的夹角是指:子图的重心(x,y)和整幅完整网页的截图顶点连成的直线与Y轴的夹角;其中的坐标表示从网页截图的左上角为原点,水平向左为X轴,竖直向下为Y轴的坐标;整幅完整网页的截图顶点即原点;子图的圆形性是指:子图重心到边界集合距离的平均值;子图的Hu矩包括子图像的二阶、三阶中心矩;进入步骤(5);抽取出启发式检测所需的数据:抽取出每个网页的以下15个特征:URL中是否含有IP、URL中是否含有@,?,‑,—,~、判断URL中.的个数、URL总长度、URL的最长的数字串长度、判断URL中是否包含敏感词汇、判断URL的路径中是否包含敏感词汇、div数量、网页中的链接总数、内链个数、外链个数、空链个数、form中get/post方法的特征、form的Action特征和form的INPUT特征,建立启发式检测的本地特征库;进入步骤(7);(4)查询文本检测的索引库,返回相似URL及两个网页的相似度值S1;(5)从整个网页截图的部分子图的6个特征,加上子图的位置大小信息包括子图距网页左边沿的距离、子图距网页上边沿的距离、子图的高、子图的宽,以及图片类型一共11个特征构成特征向量,采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S2;(6)将步骤(4)得到的两个网页的相似度值S1和步骤(5)得到的两个图片的相似性S2进行线性融合得到相似度值S,如果S≥T,则说明网页没有被黑,标记为0,否则网页被黑了,标记为1,距离过滤阈值T∈[0.3,0.6];(7)提取网页的15维启发式特征,针对正常的网页和被黑网页,使用决策树算法实现被黑网页的检测,若预测结果是0,表示正常;预测结果是1,表示被黑;(8)统计(6)和(7)的预测结果,如果两个步骤的预测结果至少有一个为1,则表示网页被黑,否则网页正常,并将预测的结果通过界面呈现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海),未经哈尔滨工业大学(威海)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711115196.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top