[发明专利]边缘计算的云环境分布式Web页面提取分析系统和方法在审
申请号: | 201911301759.2 | 申请日: | 2019-12-17 |
公开(公告)号: | CN110941788A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张宏巍;张弋;兰志超;张森玮;王帅琪;李兆国 | 申请(专利权)人: | 山西云时代技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006 山西省太原市小*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 边缘 计算 环境 分布式 web 页面 提取 分析 系统 方法 | ||
本发明属于网络通信技术领域;云计算存在数据丢失与泄露、共享技术漏洞、不安全的应用程序接口等安全风险,网页爬取效率低下,导致后续漏洞扫描需要大量时间,本发明提供一种边缘计算的云环境分布式Web页面提取分析系统和方法,中心管理节点根据历史爬取效率调度计算节点完成工作任务,提高资源的合理配置,对爬取策略和深度进行分析并去重,在保证漏洞扫描结果正确前提下,有效提高网站的爬取速度,便于扫描能力的横向扩展和计算资源的合理利用,边缘计算带来了更快的传输和响应速度,解决了传统云计算系统中节点的计算资源浪费问题,提高产能比,资源利用率明显提高。
技术领域
本发明涉及网络通信技术领域,更具体的说,涉及一种边缘计算的云环境分布式Web页面提取分析系统和方法。
背景技术
以云计算技术为基础,主要工作职能是为相关工作部门和相关工作人员提供日常自动化办公的支撑服务,全面赋能社会发展,提升智能化管理能力,提高工作执行效率,整合城市规划,提升办事效率;云计算的软件服务模式具有整合软硬件资源,较低的客户端要求和统一维护平台的特点,将云计算模式应用到电子政务平台建设上来,可以最大限度的共享数据资源、节约建设运行成本、提高平台的负载能力、降低维护难度。云计算本身也存在着开放性、分布式计算与存储、无边界、虚拟性、数据所有权与管理权分离等特点,同时带来了数据丢失与泄露、共享技术漏洞、不安全的应用程序接口等全新的安全风险。
随着云计算环境的成熟和使用,各个云平台建设的不断扩展,云环境中的网站不可避免的出现漏洞,黑客经常会利用网络漏洞窃取政府的重要信息,给信息安全造成威胁,损害国家的形象和公信力。现有技术中的Web漏洞扫描方法,基本都是利用扫描工具或者硬件设备对爬取到的网站漏洞进行扫描,对于常见的政务办公系统(平均页面文件超过20000个)处理速度过低,一般从扫描到分析结束会花费几小时甚至几天时间,这样对每个网站扫描工作的前提都需要抓取到该网站下的所有页面。网页爬取工作的效率低下,导致后续漏洞扫描需要大量时间,在保证漏洞扫描结果正确前提下,提高网站的爬取速度是一个亟待解决的问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种边缘计算的云环境分布式Web页面提取分析系统和方法,该发明通过分布式部署在云环境中,根据对历史页面提取状态和动态页面提取状态,评价网页的爬取指标,以此决定分配相应的系统资源,以提高整个页面爬取效果,高效收集相关网页资源,提高Web扫描的整体分析能力。
为实现上述目的,本发明提供了如下技术方案:
一种边缘计算的云环境分布式Web页面提取分析系统,采用分布式部署,包括:任务监控单元,用于监测用户提交的扫描任务,并将新扫描任务放入消息队列;一个中心管理节点,用于分发工作任务到各个计算节点,同时收集计算节点完成的结果数据,并对各个的结果数据进行汇总和分析,再进行数据持久化处理;多个计算节点,用于完成中心管理节点分发的工作任务,同时对工作任务的执行进行计算,形成计算结果并发送至中心管理节点;爬取策略分析模块,用于对页面内容进行分析,页面中有效和无效URL数量分别以因子形式存在,以及计算所分析页面本身深度价值与所述页面包含的页面的深度价值,动态决定爬取深度;爬取深度分析模块,用于对网页中包含的内容进行识别和分析,并根据分支路径深度经验值确定是否结束所识别页面的深度爬取;页面爬取去重模块,用于提高系统的去重效率,通过构建URL比较二叉树的去重技术,对于已经爬取过的链接插入到URL比较二叉树中,对于新的爬取任务,首先去掉URL中的参数值,然后与URL比较二叉树进行比较,分辨出URL之间的重复、相似、环路等关系。
进一步,爬取策略分析模块通过每次对爬取页面的内容进行分析,页面中包含的超链接的深度价值小于当前页面的深度价值时,停止爬取当前页面,并返回到上层页面进行其他页面的处理。
进一步,爬取深度分析模块对所分析页面内部内容以多媒体和文档为主时,就会自动停止对该页面中存在超链接的爬取分析工作,并且开始回退到上级页面进行继续其他页面的爬取,并记录所分析页面的分支路径深度经验值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西云时代技术有限公司,未经山西云时代技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301759.2/2.html,转载请声明来源钻瓜专利网。