[发明专利]一种基于爬虫技术的智能URL过滤系统及其方法在审

申请号：	201710777507.1	申请日：	2017-09-01
公开（公告）号：	CN107528845A	公开（公告）日：	2017-12-29
发明（设计）人：	黄钊;梁琦;韩兰胜;刘铭;韩福济;肖雄火;田昭	申请（专利权）人：	华中科技大学;武汉倚天剑科技有限公司
主分类号：	H04L29/06	分类号：	H04L29/06;G06F17/30
代理公司：	武汉宇晨专利事务所42001	代理人：	黄瑞棠
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于爬虫技术智能 url 过滤系统及其方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络安全领域，尤其涉及一种基于爬虫技术的智能URL过滤系统及其方法。

背景技术

在当前的情况下，Web技术仍是internet的主要形式，也是渗透的主要途径，因此URL的过滤就成了越来越突出的安全问题。随着互联网的飞速发展，人们的工作、学习、休闲娱乐和生活越来越离不开互联网。在这样海量的互联网站点中，有很多是有助于我们工作、学习、休闲娱乐的合法站点，却也有不少含有暴力内容、邪教信息和色情资源等的非法站点，这些站点对青少年的身心健康造成不良影响。除此之外，某些网站还会携带蠕虫、木马等恶意程序，当人们在这样的站点上浏览或下载时，这些恶意程序会悄无声息的进入到人们的电脑，窃取用户重要信息，对人们的财产安全造成威胁。

因此，对非法站点的访问拦截是十分必要的。从地域上分，这样的非法站点主要分为境外的和境内的两大类别。对于境外的非法站点，国家相关部门已经有了一套比较完整的过滤技术可以将其有效拦截。而对于境内的非法网站，目前主要采用两种研究方向来对其进行封堵过滤：基于服务器端的信息过滤和基于客户端的信息过滤(本发明不涉及基于服务器端的信息过滤)。基于客户端的信息过滤方法主要有：内容实时分析和URL过滤。内容实时分析存在的问题是实时产生的网页信息量非常庞大，关键字库的内容也只增不减，当处于上网高峰期，数据量出现洪峰时，该方法将无法准确高效地过滤非法信息。URL过滤则是针对网络数据包中的URL信息所采取的过滤方法。该方法和内容实时分析的方法类似，也需要先建立一个URL黑白名单库，当客户端进行访问时，先将数据包中的URL信息与库中的URL黑白名单中的信息进行比对，根据比对结果来决定是否继续访问。然而，在今天的互联网中每天都有不计其数的网站诞生，面对这些新生出来的站点，要想实现更有效的过滤，势必要及时更新URL库，而光靠极少数的管理员来监控、更新URL显然是远远不够的。

同时，在传统的防火墙技术之中，由于防火墙配置复杂难懂，效果不明显，部分防火墙缺乏较强的针对性，无法有效地完成对web浏览的访问控制，导致很多企业个人都设而不用。

发明内容

本发明的目的在于面对当前复杂的网络环境，提供能自动判断并过滤恶意站点的一种基于爬虫技术的智能URL过滤系统及其方法。

本发明的目的是这样实现的：

通过爬虫模块爬取URL信息，并对有用信息进行提取；将提取的信息发送给智能管理模块，该模块中的计算模块根据所提取的信息通过事先规定的算法计算出URL的安全得分，传递给管理模块；在管理模块中，URL规则生成子程序将得到的信息生成URL规则，传递到URL规则数据库修改子程序；URL规则数据库修改子程序根据传递的修改规则以及用户定义的白名单确定修改方式，并通过数据库接口更改规则数据库中的数据。

当用户浏览网页发送请求包时，过滤模块能拦截请求数据包，提取出数据包中的URL，并将该URL与规则数据库中的URL进行比较，若未找到匹配的URL，则执行默认策略；若找到匹配的URL，则根据该URL的安全得分，决定用户能否访问该站点。

具体地说：

一、基于爬虫技术的智能URL过滤系统(简称系统)

本系统包括过滤模块、URL过滤规则数据库、智能管理模块、爬虫模块、网络设备和用户操作模块；

网络设备、过滤模块、URL过滤规则数据库、智能管理模块、爬虫模块和网络设备依次交互；

智能管理模块和用户操作模块交互。

二、基于爬虫技术的智能URL过滤方法(简称方法)

本方法包括下列步骤：

①生成URL规则；

②用户浏览相关网站，请求到相关数据包；

③过滤模块拦截请求数据包，将数据包交由数据包分析子程序进行数据分析提取；

④数据包分析子程序将提取到的URL传递到数据包处理子程序120,120将URL与规则数据库的URL进行比较；