[发明专利]一种网站内容安全检测系统及方法在审
申请号: | 201711090519.3 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107862050A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 王电钢;龚艳;母继元;毛启均;常健 | 申请(专利权)人: | 国网四川省电力公司信息通信公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 梁田 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 内容 安全 检测 系统 方法 | ||
技术领域
本发明涉及网络安全技术领域,具体涉及一种网站内容安全检测系统及方法。
背景技术
随着互联网技术的发展,Web应用程序为人们的生活带来了极大的便利,极大地丰富了信息的传播方式。但一些非法分子通过制作钓鱼、赌博和色情等网站来为自己谋取利益,给人们安全健康上网带来了极大的安全隐患。因此,恶意网站的检测已经成为了一个严重的网络安全问题。
目前对恶意网页的检测主要包括静态特征检测和动态特征检测两种方法。静态特征检测包括对网页的DNS信息、WHOIS信息、URL语法特征、HTML内容和JavaScript代码等进行分析;动态特征检测包括对链接跳转关系、浏览器行为和注册表变化等进行分析,使用机器学习的方式对网页进行分类检测也是对上述两类做法的补充。此外,使用蜜罐技术对恶意网页进行检测也是较为成熟的做法。
在文献《Beyond Blacklists:Learning to Detect Malicious Web Sites from Suspicious URLs》中,Justin等研究者依据DNS信息、WHOIS信息以及URL语法特征,采用机器学习的方式对恶意的URL进行识别。该方式存在以下缺点:(1)一些恶意URL在语法特征和WHOIS注册信息上没有明显恶意特征,与正常URL有极大的相似性,误报率较高;(2)缺少对网页JavaScript和HTML内容的分析,仅通过分析DNS、WHOIS和URL信息来判断URL的安全性是片面的。
在文献《Prophiler:A Fast Filter for the Large-Scale Detection of Malicious Web Pages》中,Davide在Justin的研究基础上增加了对网页Javascript和HTML特征的分析,通过对网页内容的检测提升了对恶意网站的识别准确率;在论文《基于数据挖掘和机器学习的木马检测系统设计与实现》中,施宇通过提取网页特征,并使用机器学习和BP神经网络的方式对网页进行分类,从而达到对恶意网站的识别。以上两种方法较Justin的研究有了极大的改进,但都忽视了几个重要的问题:(1)对网页内容的分类,尤其是对图片的分类,使用SVM模型或是BP神经网络分类复杂图像时表现并不好,容易产生较大的偏差;(2)使用机器学习或深度学习的方式分类网页内容会给系统带来极大的开销,针对现在热门的通过使用硬件加速的方式提升系统响应速度的措施,二者没有做类似的加速处理。
发明内容
本发明所要解决的技术问题是提升现有网站内容安全检测的响应速度,对网页内容进行分析,减少误报率,目的在于提供一种网站内容安全检测系统及方法,以样本图像特征作为模型训练器的输入得到分类器,使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度,实现快速、高效且准确的网站内容安全检测的目的。
本发明通过下述技术方案实现:
一种网站内容安全检测系统,包括
前端请求模块:输入待检测的URL网址,提交请求到爬虫模块;
爬虫模块:爬取目标URL网址的图片信息;
特征提取模块:将爬虫模块的图片信息和样本图片模块的图片信息均提取为特征向量;
模型训练器:将样本图片的特征向量通过监督学习的方式生成分类器;
FPGA硬件加速器:对特征提取模块提供硬件加速功能;
安全仲裁模块:根据分类器对图片特征的分类结果,计算目标URL网址的安全系数;
数据存储模块:存储爬虫模块爬取的图片信息,存储对目标URL的检测结果信息;
响应器:向前端请求模块返回目标URL的安全系数。
本方案通过使用机器学习的方式对网站内容进行安全检测,特征提取模块提取图像特征,模型训练器依据提取的样本图像特征训练得到分类器,分类器依据图像特征对图像进行分类,实现将图像进行分类判断,不会将恶意URL在语法特征和WHOIS注册信息上没有明显恶意特征,与正常URL相混淆,发生误判断,本方案的判断方法偏差小,误报率底,并使用FPGA硬件加速器对特征提取模块算法进行加速以提升系统响应速度,实现快速、高效且准确的网站内容安全检测的目的。
优选的,FPGA硬件加速器使用Xilinx可重配置加速堆栈,结合Caffe机器学习框架和Xilinx深度神经网络DNN库予以实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网四川省电力公司信息通信公司,未经国网四川省电力公司信息通信公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711090519.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据补录方法及装置
- 下一篇:一种文件分类方法、系统及一种文件分类设备
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法