[发明专利]基于关键路径的违法网站识别系统及其方法在审
申请号: | 201611101755.6 | 申请日: | 2016-12-05 |
公开(公告)号: | CN106776958A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 凡友荣;王永剑;曲洋;杨涛;姜国庆;彭如香 | 申请(专利权)人: | 公安部第三研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/55;G06K9/62 |
代理公司: | 上海智信专利代理有限公司31002 | 代理人: | 王洁,郑暄 |
地址: | 200031*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 路径 违法 网站 识别 系统 及其 方法 | ||
技术领域
本发明涉及网站识别分类领域,尤其涉及违法网站识别技术领域,具体是指一种基于关键路径的违法网站识别系统及其方法。
背景技术
识别违法网站是网络安全领域的一项重要工作,其识别方法的准确性和时效性也有了更高的要求。目前,现有的网站聚类研究多从用户访问行为的角度出发,从Web日志中获取用户访问网站的数据,包括用户的访问路径、访问频率、访问时间以及访问爱好等,建立用户事务矩阵,进而对用户群体和网站进行聚类。然而,这种间接的网站聚类方法不够准确,不能实现违法网站的快速识别。在违法网站自动识别的专业领域,已有研究主要基于黑名单、静态检测和动态检测三类技术,但建立和维护黑名单的工作量大且成本高,静态检测多数通过网络爬虫获取网站静态数据,对未知违法网站检测不够及时,动态检测实施难度大,并且主要针对挂马类网站,能识别的网站类别有限。综上可见,目前通过网站相似度和网站关键路径识别违法网站的研究还不多,尤其是针对违法网站URL关键路径的研究还很少。
发明内容
为了克服上述现有技术中的问题,本发明提出了一种工作量小、能及时检测未知违法网站、实施难度小、能识别多种网站类别的基于关键路径的违法网站识别系统及其方法。
本发明的基于关键路径的违法网站识别系统及其方法具体如下:
该基于关键路径的违法网站识别系统,包括用户层、应用服务层、技术支撑层和数据存储层,其主要特点是,
所述的用户层用以提供系统主要账户;
所述的应用服务层用以提供系统主要功能模块,供所述的用户层中的系统主要账户调用;
所述的技术支撑层用以提供系统开发工具及核心的算法程序,供所述的应用服务层的系统主要功能模块调用;
所述的数据存储层用以为所述的用户层、应用服务层和技术支撑层提供和存储数据。
较佳地,所述的系统主要账户包括数据预处理账户、算法程序管理账户、算法执行账户和系统管理账户,其中:
所述的数据预处理账户用以实现该系统的数据处理程序的开发、数据处理程序的运行以及数据处理后该系统所获取数据的管理;
所述的算法程序管理账户用以实现对该系统的算法的开发与维护,其中,所述的算法包括相似度算法、聚类算法、关键路径提取算法和违法网站识别算法;
所述的算法执行账户用以实现按需调整算法参数、在Apache Spark平台运行算法以及存储和管理算法的运行结果;
所述的系统管理账户用以实现对所述的系统中的账户、角色和权限资源信息的分配和维护以及数据库的备份。
较佳地,所述的系统主要功能模块包括数据预处理模块、网站相似度计算模块、网站聚类模块、违法网站关键路径提取模块和违法网站识别模块,其中,
所述的数据预处理模块用以对其获取的训练网站的URL进行预处理,获取Host和Path;
所述的网站相似度计算模块用以根据该系统获取的训练网站的URL的Host和Path获取训练网站的Path相似度和Host相似度;
所述的网站聚类模块用以获取一最优相似度阈值;
所述的违法网站关键路径提取模块用以提取违法网站的关键路径构成一识别违法网站的关键路径知识库,该识别违法网站的关键路径知识库位于所述的数据存储层;
所述的违法网站识别模块用以结合所述的违法网站关键路径知识库判断待识别网站是否为违法网站。
该基于以上所述的系统实现基于关键路径的违法网站识别方法,其主要特点是,所述的方法包括以下步骤:
(1)所述的违法网站识别系统分析训练网站,构建一违法网站识别系统关键路径知识库;
(2)所述的违法网站识别系统根据从待识别网站中获取的数据、所述的违法网站识别系统关键路径知识库以及所述的违法网站识别模块判断该待识别网站是否为违法网站。
较佳地,所述的步骤(1)的具体步骤为:
(1.1)所述的违法网站识别系统通过所述的数据预处理模块获取训练网站URL的Host和Path;
(1.2)所述的违法网站识别系统根据所述的步骤(1.1)中获取的训练网站URL的Host的数据、Path的数据和所述的网站相似度计算模块获取训练网站间的Host相似度和Path相似度;
(1.3)所述的违法网站识别系统根据所述的步骤(1.2)中的Host相似度、Path相似度和所述的网站聚类模块确定一最优相似度阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611101755.6/2.html,转载请声明来源钻瓜专利网。