[发明专利]假冒学术期刊网站的检测方法在审
申请号: | 201710363028.5 | 申请日: | 2017-05-22 |
公开(公告)号: | CN107800679A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 黎文伟;文明 | 申请(专利权)人: | 湖南大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 长沙正奇专利事务所有限责任公司43113 | 代理人: | 马强,王娟 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 假冒 学术期刊 网站 检测 方法 | ||
技术领域
本发明涉及网站检测领域,特别是一种假冒学术期刊网站的检测方法。
背景技术
计算机的出现以及计算机技术的快速发展,使人们的生活方式发生了翻天覆地的变化。尤其互联网(Internet)的蓬勃兴起,已经成为当今世界推动经济发展和社会进步的重要信息基础设施,互联网这条高速信息公路能够清楚地把整个世界的面貌都呈现在我们眼前,给人们生活带来了极大的方便。与此同时,也给网络犯罪提供了平台。钓鱼者通过各种钓鱼手段,在各个领域都设计出来相关的假冒网页,而且钓鱼手段越来越成熟,越来越高明。
近年来,通过计算机来欺骗用户的事件相继出现,其中利用网络钓鱼(Phishing)进行犯罪的现象迅速增加,给个人用户、企业乃至社会经济造成严重的损害,给社会信任带来了严重的挑战,使网络环境日益恶化。基本上各行各业都会遭受网络钓鱼的攻击,网络钓鱼是指欺诈者在网络上以授权机构的名义窃取用户隐私信息的行为。Phishing攻击者将用户引诱到一个通过精心设计的,与目标组织非常相似的Web页面,通过进入假冒网站的用户进行注册、登录等操作来获取个人重要信息。钓鱼网站已经渗透到了学术期刊投稿领域,在网上输入任何一本期刊的刊名,搜索结果便会出现三五个该刊的投稿网站,其搜索结果中只有一个为真实的学术期刊投稿网站,其余的都是假冒的投稿网站,然而目前在这一领域还没有有效的防钓鱼网站系统,所以积极研究学术期刊假冒网站攻击检测技术是非常有必要的,本发明根据这网络现象,结合研究人员在其它领域的反钓鱼研究,在学术期刊网站检测这一领域,提出一种假冒学术期刊网站检测技术,来有效保护用户隐私,维护学术社区的秩序。
现有的检测方法主要有以下几类:①基于黑名单或白名单技术,基于黑名单检测技术是在商业、各政府部门最常见的一种反钓鱼方法,也是使用时间最长的一种检测方法。黑名单技术是指通过手动的发现假冒网址,然后把这些假冒的URL存入到一个黑名单库中。当用户访问网址时,访问网址的URL就会和黑名单库中的URL进行对比,如果找到一样的域名链接,就可以判断该链接为假冒网页,并向用户发出提醒。②基于视觉图像匹配的钓鱼识别。该方法通过对网页图像进行分割、提取和计算并获得可疑网页与受保护网页直接的视觉相似度,最终完成钓鱼页面的检测判定,但该方法主要针对风格布局等比较相近的网页。③基于链接分析的钓鱼检测技术,基于链接分析的钓鱼检测技术是一种实时在线的一种学习算法,一旦用户访问网页时,浏览器就会马上提取网页的特征值,然后与合法的网页特征值做一个比较,然后判断其真假性。
上述现有技术中:①基于黑名单或白名单技术,对所访问网址进行过滤。黑白名单检测技术的准确率较高,不容易出现误报等情况,但由于钓鱼网站的更新速度很快,存活时问较短,因此,黑白名单技术必须要实时更新名单库,但这样做的难度很高。②基于视觉图像匹配的钓鱼识别。该方法主要针对风格布局等比较相近的网页,对于布局差异较大的假冒网页检测,则显得力不从心。③链接分析的检测技术的优势在于,不需要去实时的去更新黑名单库,所以在访问网不需要消耗大量的网络带宽,但是缺陷在于,该方法的判断网页的真假性的准确率却大大降低。
发明内容
本发明旨在提供一种假冒学术期刊网站的检测方法,提高对真假学术期刊网站的判别率。
为解决上述技术问题,本发明所采用的技术方案是:一种假冒学术期刊网站的检测方法,包括以下步骤:
1)筛选出所有真假学术期刊网站,区分真假学术期刊网站;
2)提取真假学术期刊网站的URL、域名和网页内容特征,并统计和分析真假学术期刊网站的URL、域名和网页内容特征,通过比较各特征值在真假学术网站中的差别,选择区分真假学术网站的特征值;
3)利用支持向量机算法对选取的学术期刊网站特征值进行处理,训练出SVM分类器;
4)通过训练的分类器,提取测试样本的特征值,作为决策函数的输入量,根据函数结果,判断学术期刊网站的真假性。
步骤1)的具体实现过程包括:
a)以各期刊名为关键字,通过爬虫程序,获取排列前一千名的搜索结果,记录搜索结果的URL地址、标题、摘要、名次排列和搜索结果总数;
b)对于任一搜索结果,分析比较URL地址的标题与其期刊名,如果URL的地址标题的字符长度与期刊名的字符长度差超过八个字符,直接去除该搜索结果;
c)在经步骤b)处理后剩下的搜索结果中,通过这些搜索结果的URL地址来获取网页的内容,判断获取的网页内容中是否含有投稿指南和表单提交信息,如果都没有,直接删除该获取的网页内容对应的搜索结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710363028.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于无线网络中下行链路传输的系统和方法
- 下一篇:一种改进型信息扫描装置