[发明专利]基于关键路径的违法网站识别系统及其方法在审

专利信息
申请号: 201611101755.6 申请日: 2016-12-05
公开(公告)号: CN106776958A 公开(公告)日: 2017-05-31
发明(设计)人: 凡友荣;王永剑;曲洋;杨涛;姜国庆;彭如香 申请(专利权)人: 公安部第三研究所
主分类号: G06F17/30 分类号: G06F17/30;G06F21/55;G06K9/62
代理公司: 上海智信专利代理有限公司31002 代理人: 王洁,郑暄
地址: 200031*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 关键 路径 违法 网站 识别 系统 及其 方法
【权利要求书】:

1.一种基于关键路径的违法网站识别系统,包括用户层、应用服务层、技术支撑层和数据存储层,其特征在于,

所述的用户层用以提供系统主要账户;

所述的应用服务层用以提供系统主要功能模块,供所述的用户层中的系统主要账户调用;

所述的技术支撑层用以提供系统开发工具及核心的算法程序,供所述的应用服务层的系统主要功能模块调用;

所述的数据存储层用以为所述的用户层、应用服务层和技术支撑层提供和存储数据。

2.根据权利要求1所述的基于关键路径的违法网站识别系统,其特征在于,所述的系统主要账户包括数据预处理账户、算法程序管理账户、算法执行账户和系统管理账户,其中:

所述的数据预处理账户用以实现该系统的数据处理程序的开发、数据处理程序的运行以及数据处理后该系统所获取数据的管理;

所述的算法程序管理账户用以实现对该系统的算法的开发与维护,其中,所述的算法包括相似度算法、聚类算法、关键路径提取算法和违法网站识别算法;

所述的算法执行账户用以实现按需调整算法参数、在Apache Spark平台运行算法以及存储和管理算法的运行结果;

所述的系统管理账户用以实现对所述的系统中的账户、角色和权限资源信息的分配和维护以及数据库的备份。

3.根据权利要求1所述的基于关键路径的违法网站识别系统,其特征在于,所述的系统主要功能模块包括数据预处理模块、网站相似度计算模块、网站聚类模块、违法网站关键路径提取模块和违法网站识别模块,其中,

所述的数据预处理模块用以对其获取的训练网站的URL进行预处理,获取Host和Path;

所述的网站相似度计算模块用以根据该系统获取的训练网站的URL的Host和Path获取训练网站的Path相似度和Host相似度;

所述的网站聚类模块用以获取一最优相似度阈值;

所述的违法网站关键路径提取模块用以提取违法网站的关键路径构成一识别违法网站的关键路径知识库,该识别违法网站的关键路径知识库位于所述的数据存储层;

所述的违法网站识别模块用以结合所述的违法网站关键路径知识库判断待识别网站是否为违法网站。

4.一种基于权利要求1至3中任一项所述的系统实现基于关键路径的违法网站识别方法,其特征在于,所述的系统主要功能模块包括数据预处理模块、网站相似度计算模块、网站聚类模块、违法网站关键路径提取模块和违法网站识别模块,所述方法包括以下步骤:

(1)所述的违法网站识别系统分析训练网站,构建一违法网站识别系统关键路径知识库;

(2)所述的违法网站识别系统根据从待识别网站中获取的数据、所述的违法网站识别系统关键路径知识库以及所述的违法网站识别模块判断该待识别网站是否为违法网站。

5.根据权利要求4所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的步骤(1)的具体步骤为:

(1.1)所述的违法网站识别系统通过所述的数据预处理模块获取训练网站URL的Host和Path;

(1.2)所述的违法网站识别系统根据所述的步骤(1.1)中获取的训练网站URL的Host的数据、Path的数据和所述的网站相似度计算模块获取训练网站间的Host相似度和Path相似度;

(1.3)所述的违法网站识别系统根据所述的步骤(1.2)中的Host相似度、Path相似度和所述的网站聚类模块确定一最优相似度阈值;

(1.4)所述的违法网站识别系统根据所述的步骤(1.2)中获取的Host相似度和Path相似度和所述的步骤(1.3)中获取的最优相似度阈值以及所述的违法网站关键路径获取训练网站的关键路径,并将训练网站的关键路径并入一违法网站识别系统关键路径知识库,该违法网站识别系统关键路径知识库存储于所述的数据存储层。

6.根据权利要求5所述的实现基于关键路径的违法网站识别方法,其特征在于,所述的步骤(1.1)中的获取网站URL的Host和Path具体为:

所述的违法网站识别系统获取训练网站的URL,并通过所述的数据预处理模块提取训练网站的URL的Host和Path,其中,所述的数据预处理模块通过SQL语句将其获取的待识别网站的URL切分为Host、Path和Query。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611101755.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top