[发明专利]一种完整网站源码获取方法及非法网站检测方法、系统在审

申请号：	201710940131.1	申请日：	2017-10-11
公开（公告）号：	CN107957872A	公开（公告）日：	2018-04-24
发明（设计）人：	周发;袁晓彤;耿光刚;延志伟;李晓东	申请（专利权）人：	中国互联网络信息中心
主分类号：	G06F8/53	分类号：	G06F8/53;G06F17/30;G06K9/62
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	司立彬
地址：	100190 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种完整网站源码获取方法非法检测系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种完整网站源码获取方法及非法网站检测方法、系统，属于网络技术领域。

背景技术

随着互联网的发展，互联网已经进入了各个领域。然而同样随着而来的是，互联网也被一些传统的非法行业所使用，如用来贩卖枪支、毒品，经营赌博、色情等。同时，这些不良网站中还可能会被嵌入木马、病毒等。对互联网的这些滥用，严重威胁了互联网的健康发展以及侵害网民身心健康以及财产安全。为了检测不良网站，研究者提出了许多的检测方法。

黑白名单是非法网站鉴别的手段之一。各大浏览器厂商通过有规律的更新黑名单来达到对非法网站的识别、并起到提醒用户的作用。黑名单虽然有效，但是缺点很明显。各个浏览器厂商需要经常、及时更新该黑名单，如果一个非法网站未被及时收录到黑名单，则该非法网站无法被识别。

基于文本内容启发式算法也是用来鉴别非法网站的手段之一。这类算法依赖一些提前预设的不良关键词和句子来识别不良网站，如果网站包含这些关键词或者句子，则将网站认作非法网站。这类算法过于简单，容易造成错分类，对于正常网站来说，例如新闻网站等，如果包含了一些关键词或句子，则被认为是非法网站。对于非法网站来说，这类方法和黑名单一样，如果关键词或句子覆盖度不够的话，则无法识别，将非法网站认定为正常网站。

随着机器学习广泛的应用，机器学习也被应用于对非法网站鉴别。朴素贝叶斯、神经网络、支持向量机、决策树等算法在Chen-Huei Chou等的论文《A text mining approach to Internet abuse detection》中经实验证明在二分类的非法网站识别中有着良好的效果。但是该论文中只使用了源码中文本信息来获取特征，依然存在认定不准确的问题。

对于非法网站的建设者来说，为了躲避针对其网站的检测，也使用了很多反检测技术，进一步增加了检测难度。同时目前的网站难以采用传统方法获取其完整源码，如果无法获取真正、完整显示于浏览器中的html代码，则难以实现对网站进行准确检测。

发明内容

针对现有技术存在的技术问题，本发明的目的在于提供一种完整网站源码获取方法及非法网站检测方法、系统。

本发明在获取的非法网站中，发现许多网站会采用在自身网页中使用JavaScript代码动态加载显示非法内容，或者将JavaScript代码不放置于自身网站代码中，而是使用异步加载的方式从其他地址获取，只有在浏览器解析时，JavaScript代码才会执行。同时，本发明发现有些网站不会在其自身的网页源码中使用非法内容，而是将非法网页的内容嵌套在<iframe>标签中，<iframe>标签也只有在浏览器解析原来的网页源码时，才会被加载到浏览器的显示页面中。非法网站通过使用这些方法，使得检测者无法通过wegt等工具获取不良网站真正、完整显示于浏览器中的html代码。因此如果无法获取真正、完整显示于浏览器中的html代码，则难以实现准确检测。本发明考虑了html中一些非文本的统计特征，如html结构中<iframe>标签数量等特征，同时在本发明实际使用过程中，发现随机森林算法效果优异。

本发明的技术方案为：

一种完整网站源码获取方法，其步骤包括：

1)对于每一目标网站，使用PhantomJS来动态加载该目标网站的JavaScript代码，获取执行完JavaScript之后的html代码；

2)从该html代码中获取发起请求的标签中的URL，获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置；

3)递归步骤2)的处理，得到该目标网站的最终的完整源码。

进一步的，所述发起请求的标签为<iframe>标签。

进一步的，所述步骤2)中，设置一超时机制，如果设定时间内未收到当前URL的响应，则停止对该URL的访问请求。

一种非法网站检测方法，其步骤包括：

获取待识别网站的完整源码；根据非法网站识别模型中的文本特征文件，从该待识别网站的完整源码中提取相对应的特征作为该待识别网站的完整源码的特征，将该完整源码的特征的特征值设置为所述文本特征文件中对应特征的特征值；提取该待识别网站的完整源码的非文本的统计特征；

将该待识别网站的完整源码特征及其特征值、非文本的统计特征输入该非法网站识别模型，判定该待识别网站是否为非法网站；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载