[发明专利]钓鱼网页的深度学习智能检测方法无效
申请号: | 201110393959.2 | 申请日: | 2011-12-01 |
公开(公告)号: | CN102523202A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 李元诚;沈尚方 | 申请(专利权)人: | 华北电力大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 朱琨 |
地址: | 102206 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 钓鱼 网页 深度 学习 智能 检测 方法 | ||
1.钓鱼网页的深度学习智能检测方法,其特征在于,分为以下步骤:
1)对网页文档模型进行分析,生成网页文档特征向量F;
2)将待测网页转化为图像,并采用谱聚类方法对所得图像进行分割;
3)提取网页图像特征,从而获得网页内容特征向量N;
4)使用流形学习Isomap算法对网页内容特征向量N降维得到特征空间Vnew;
5)用DBN分类器对特征空间Vnew进行训练和测试,根据DBN分类器结果判别待检测的网页是否为钓鱼网页。
2.根据权利要求1所述的钓鱼网页的深度学习智能检测方法,其特征在于,所述步骤2)具体分为以下步骤:
21)将待测网页保存为网页图像;
22)将网页图像由RGB空间变换为HSI空间;
23)采用谱聚类方法,确定网页图像的聚类数目k;
24)生成k个子图。
3.根据权利要求1所述的钓鱼网页的深度学习智能检测方法,其特征在于,所述步骤3)具体分为以下步骤:
31)提取分割后的各个子图的特征向量Vi;
32)提取分割后的各个子图间的位置关系特征向量C;
33)将以上特征组合成网页图像特征向量A,并与网页文档特征 向量F一起合成为网页内容特征向量N。
4.根据权利要求1所述的钓鱼网页的深度学习智能检测方法,其特征在于,所述步骤4)具体分为以下步骤:
41)选择邻域参数,构造邻域图;
42)在步骤41)所选择的邻域参数K下,求出产生的子邻域图个数以及每个子邻域图是由哪些数据点组成;
43)求出子邻域图数据集间最短的γ条欧式距离分别对应的数据点;
44)对WMi,WMj中相互连接的数据点对应的邻域集合进行修正
45)求出数据点间的最短路径;
46)构建m维的低维嵌入,获得降维后的特征空间Vnew。
5.根据权利要求1所述的钓鱼网页的深度学习智能检测方法,其特征在于,所述步骤5)具体分为以下步骤:
51)从网页内容特征空间Vnew中,给出部分有标签的训练样本;
52)使用网页图像特征空间Vnew中给出的有标签的训练样本,对DBN进行训练;
53)对DBN实施修正训练,进行参数微调,得到DBN分类器;
54)用得到的DBN分类器对特征空间Vnew中的无标签样本进行测试,输出钓鱼网页检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110393959.2/1.html,转载请声明来源钻瓜专利网。