[发明专利]一种基于空间布局与视觉特征的钓鱼网页检测方法无效
申请号: | 201110112428.1 | 申请日: | 2011-04-29 |
公开(公告)号: | CN102170446A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 张卫丰;曾兵;张迎周;周国强;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于空间布局与视觉特征的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库以及图片特征相似度比较的设计方案,主要解决了基于网页布局与视觉相似度角度进行快速钓鱼网页检测的问题,系统由6个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是4个功能模块,即:布局特征抽取模块、空间数据库模块、机器学习匹配模块、图片特征提取与比对模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。 | ||
搜索关键词: | 一种 基于 空间布局 视觉 特征 钓鱼 网页 检测 方法 | ||
【主权项】:
一种基于空间布局与视觉特征的钓鱼网页检测方法,其特征在于该方法由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测,下面是最核心的3个功能模块,即:布局特征抽取模块、空间数据库模块、机器学习匹配模块;其中布局特征抽取模块抽取块状网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征;空间数据库模块在训练时期对数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练,优化网页相似性阀值的参数;在钓鱼网页检测阶段,接收特征提取模块传来的特征数据,与空间数据库中相似特征,计算网页之间的相似性,最后根据网页相似性阀值判断钓鱼网页;在钓鱼网页检测过程中通过浏览器内核解析网页源代码并提取空间布局特征,以此作为钓鱼网页检测的依据,并在特征库中结合空间数据库提高查询速度,具体实现步骤为:步骤1)训练阶段数据准备过程:采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;将所有样本数据的布局特征插入空间数据库;采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据;布局特征由以下四个数值属性组成:●文档对象模型节点的高度这里的高度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素在垂直方向上象素点个数,●文档对象模型节点的宽度这里的宽度表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素在水平方向上象素点个数,●文档对象模型节点的X坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及Java页面脚本源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点,●文档对象模型节点的Y坐标设Web浏览器显示区域最左上角的象素点坐标为(0,0),这里的X坐标表示浏览器引擎解析了网页的HTML源代码,层叠样式表源代码以及源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点,步骤2)测试数据集的标定过程:将测试数据中的所有普通网页标注为“0”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“1”,表示钓鱼网页;步骤3)对所有测试网页的特征在空间数据库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块,遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页布局相似度阀值;第二阶段:对相应的图块进行内容图片的特征提取和比对步骤5)分别对钓鱼网页和普通网页之间对应的相似图块进行图片特征的提取,得到对应图片的特征向量;步骤6)对图片的特征向量进行处理,利用相关算法来计算对应的图片之间的相似度,看相似度结果是否超过设定的视觉特征相似度阈值P;步骤7)对疑似钓鱼网页的检测过程:对可疑网页采集布局特征;用可疑网页的特征在空间数据库中查找相似的特征的网页,将可疑网页的图像特征、布局特征与特征库过滤后的网页的图像特征与布局特征进行相似度计算,看相似度结果是否超过设定的视觉特征相似度阈值,如大于阈值则判定是否为钓鱼网页,否则为普通网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110112428.1/,转载请声明来源钻瓜专利网。
- 上一篇:存活蛋白mRNA的测定方法
- 下一篇:具有可扩展句法的编程语言