[发明专利]一种基于离线流量包解析的仿冒网站识别方法及系统在审
申请号: | 201910249260.5 | 申请日: | 2019-03-29 |
公开(公告)号: | CN110061975A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 李鹏霄;时磊;张琳;王海洋;柳毅;程光;钮艳;王元杰;王祥;隋明爽;王艳华;李雪梅 | 申请(专利权)人: | 中国科学院计算技术研究所;国家计算机网络与信息安全管理中心 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 仿冒 流量包 离线 网站信息 检测 判别模型 网站识别 信息库 解析 匹配 随机森林分类器 数据流 规则匹配 构建 保存 失败 | ||
本发明涉及一种基于离线流量包解析的仿冒网站识别方法,包括:根据已知网站信息库训练随机森林分类器,以构建对仿冒网站的判别模型;获取待检测网站的数据流并保存为离线流量包,通过该离线流量包得到该待检测网站的网站信息;根据该已知网站信息库对该网站信息进行规则匹配,对匹配为仿冒网站的待检测网站进行标识,将匹配失败的网站信息通过该判别模型进行判别,并对判别为仿冒网站的待检测网站进行标识。
技术领域
本发明涉及网络信息技术及安全技术领域,具体涉及一种基于离线流量包解析的仿冒网站识别方法和系统。
背景技术
信息技术广泛应用和网络空间兴起发展,极大的促进了经济社会繁荣进步,同时也带来新的安全风险和挑战,仿冒网站等网络安全问题,严重危害着网民的个人信息安全和财产安全。网页仿冒俗称网络钓鱼(Phishing),是社会工程学欺骗原理与网络技术相结合的典型应用。
《2017年中国互联网网络安全报告》显示,2017年,国家计算机网络应急技术处理协调中心(简称CNCERT/CC)监测发现约49493个针对我国境内网站的仿冒页面,涉及境内外25048个IP地址,平均每个IP地址承载两个钓鱼页面。
仿冒网站不仅数量巨大,而且形式繁多,不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料,严重威胁了网民信息隐私和财产安全。
目前,仿冒网站的判别方法主要分为两类:
基于规则匹配的检测方法:该方法通过根据制定的规则对待检测网站进行判定,识别速度较快,可实时监测;不足之处在于检测结果依赖于规则库的质量,且更新不易,无法匹配新类型的仿冒网站,误报率较高。
基于机器学习的检测方法:将仿冒网站的识别看做分类问题,通过构建分类模型,输入待检测网站的网页特征值,计算待检测网站与已知仿冒网站或已知非仿冒网站的文字内容、图像信息、网页布局等特征相似度,通过与预设阈值进行比较,从而判定待检测网站是否为仿冒网站。该方法检测效果较好,但在实际应用中,预设阈值的取值对判定结果影响较大,且仿冒网站通常与原网站域名相似度极高,仅通过与预设阈值的比较,难免会错判、漏判仿冒网站。
“一种识别疑似仿冒网站的方法与系统”(公告号:CN101504673A)孔勇伟等人通过两次正则表达式匹配来判定待识别网站是否为仿冒网站,首先,对待识别的网站地址与保护网站地址进行正则匹配,若匹配不成功,则对待识别网站与疑似仿冒网站进行正则表达式匹配,根据匹配结果,判定所述待识别网站地址是否为疑似仿冒网站。
“一种自动检测疑似仿冒网站的方法及系统”(公开号:CN103442014A),云晓春等在与白名单、黑名单两次匹配的基础上,根据匹配结果,将当前网页内容与所有白名单网站的专属标识进行匹配,计算相似度,得到最大相似度值,判断最大相似度值是否大于预设的阈值,从而对其是否为疑似仿冒网站进行判定。
“一种假冒网站检测方法及设备”(公开号:CN101539936A),张爽等人从网站的日志记录中获取所述网站的资源访问信息;从所述的资源访问信息中提取访问者信息;将提取的访问者信息与预存储的访问者信息进行一致性比对,如果不一致则将提取的访问者信息输出。以有效的检测出假冒网站。
发明人在进行仿冒网站识别的研究时,发现现有方法主要在两个方面存在局限,首先是待检测网站数据源的获取过于单一,通过网络流量获得待检测网站数据源的方法比较少;其次在识别算法上有待改进,比如,规则匹配方法对规则库的质量依赖性较大,且无法识别新的仿冒网站;而构建机器学习识别模型,虽然识别准确率不错,但是预设阈值的取值对判定结果影响较大,且仿冒网站通常与原网站域名相似度极高,仅通过与预设阈值的比较,难免会错判、漏判仿冒网站。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;国家计算机网络与信息安全管理中心,未经中国科学院计算技术研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910249260.5/2.html,转载请声明来源钻瓜专利网。