[发明专利]边缘计算的云环境分布式Web页面提取分析系统和方法在审
申请号: | 201911301759.2 | 申请日: | 2019-12-17 |
公开(公告)号: | CN110941788A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 张宏巍;张弋;兰志超;张森玮;王帅琪;李兆国 | 申请(专利权)人: | 山西云时代技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
地址: | 030006 山西省太原市小*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 边缘 计算 环境 分布式 web 页面 提取 分析 系统 方法 | ||
1.一种边缘计算的云环境分布式Web页面提取分析系统,其特征在于:采用分布式部署,包括:
任务监控单元,用于监测用户提交的扫描任务,并将新扫描任务放入消息队列;
一个中心管理节点,用于分发工作任务到各个计算节点,同时收集计算节点完成的结果数据,并对各个的结果数据进行汇总和分析,再进行数据持久化处理;
多个计算节点,用于完成中心管理节点分发的工作任务,同时对工作任务的执行进行计算,形成计算结果并发送至中心管理节点;
爬取策略分析模块,用于对页面内容进行分析,页面中有效和无效URL数量分别以因子形式存在,以及计算所分析页面本身深度价值与所述页面包含的页面的深度价值,动态决定爬取深度;
爬取深度分析模块,用于对网页中包含的内容进行识别和分析,并根据分支路径深度经验值确定是否结束所识别页面的深度爬取;
页面爬取去重模块,用于提高系统的去重效率,通过构建URL比较二叉树的去重技术,对于已经爬取过的链接插入到URL比较二叉树中,对于新的爬取任务,首先去掉URL中的参数值,然后与URL比较二叉树进行比较,分辨出URL之间的重复、相似、环路关系。
2.根据权利要求1所述的边缘计算的云环境分布式Web页面提取分析系统,其特征在于:所述爬取策略分析模块通过每次对爬取页面的内容进行分析,页面中包含的超链接的深度价值小于当前页面的深度价值时,停止爬取当前页面,并返回到上层页面进行其他页面的处理。
3.根据权利要求1所述的边缘计算的云环境分布式Web页面提取分析系统,其特征在于:所述爬取深度分析模块对所分析页面内部内容以多媒体和文档为主时,就会自动停止对该页面中存在超链接的爬取分析工作,并且开始回退到上级页面进行继续其他页面的爬取,并记录所分析页面的分支路径深度经验值。
4.根据权利要求1所述的边缘计算的云环境分布式Web页面提取分析系统,其特征在于:所述页面爬取去重模块中,建立URL比较二叉树并将网站URL中的每个访问位置进行分割,每个访问位置为二叉树的一个节点,将网站中存在的访问路径构建成二叉树;每个新爬取的页面都会跟所述URL比较二叉树进行比较,只有在判定该页面没有被爬取过时,才会对该页面进行爬取。
5.根据权利要求1所述的边缘计算的云环境分布式Web页面提取分析系统,其特征在于:所述中心管理节点中还包括资源分配模块,所述资源分配模块根据历史爬取效率和实时爬取效率决定所分配的计算节点的资源数量,完成一个网站的爬取后,根据本次爬取效率并结合历史爬取效率,修改该网站的爬取效率,为下次爬取进行经验指导。
6.一种边缘计算的云环境分布式Web页面提取分析方法,其特征在于:包括以下步骤:
步骤1. 用户通过Web页面提交扫描任务,所述扫描任务直接存入数据库;
步骤2. 任务监控单元监测用户提交的扫描任务,当发现有新扫描任务时,任务监控单元把新任务放入消息队列,中心管理节点从消息队列中读取出未执行的任务,根据当前的各个计算节点的运行情况,选择空闲的计算节点分发任务;
步骤3. 各个计算节点根据实时的爬取效率和历史经验反馈至中心管理节点,要求中心管理节点进行计算节点的增加或减少调度,当各计算节点反馈实时爬取延时接近或优于历史经验值的一个区间值时,中心管理节点会缓慢的增加计算节点数量,直至各计算节点反馈爬取延时低于历史经验值,则停止增加计算节点数量;当各计算节点反馈实时爬取延时低于历史经验值的一个阈值时,则减少分配给该网站计算节点数量;
步骤4. 各个计算节点把任务执行后的计算结果传回中心管理节点,中心管理节点完成多个计算节点的计算结果的汇集、分析,并进行数据持久化处理。
7.根据权利要求6所述的边缘计算的云环境分布式Web页面提取分析方法,其特征在于:所述中心管理节点进行工作任务调度过程中采用缓存机制,一次向空闲的计算节点单元分发多个任务,减少任务调度对数据读取的负担。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西云时代技术有限公司,未经山西云时代技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301759.2/1.html,转载请声明来源钻瓜专利网。