[发明专利]基于分布式架构的可视化主题网页内容爬取系统及方法在审

专利信息
申请号: 201811041524.X 申请日: 2018-09-07
公开(公告)号: CN109284430A 公开(公告)日: 2019-01-29
发明(设计)人: 王科 申请(专利权)人: 杭州艾塔科技有限公司
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 暂无信息 代理人: 暂无信息
地址: 310052 浙江省杭州市滨*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式架构 爬取系统 主题网页 可视化 分布式存储系统 源代码 非结构化数据 数据采集效率 网页内容请求 大规模结构 分布式存储 结构化数据 任务初始化 软硬件成本 索引子系统 任务调度 任务生成 任务执行 任务状态 网页采集 网页内容 主题网站 后把 可视 索引 页面 并发 解析 挖掘 跟踪 支撑 分析
【说明书】:

发明主要公开了基于分布式架构的可视化主题网页内容爬取系统及方法,其技术方案:包括包括三大子系统,分别为可视化子系统、爬取子系统以及分布式存储索引子系统;网页内容爬取方法通过任务初始化提交,任务生成,任务调度,任务执行,任务状态跟踪五大步骤进行,本发明能够高效并发支持网页内容请求,爬取各种主题网站,解析页面源代码后把非结构化数据变成结构化数据存放在分布式存储系统上索引,可以有效支撑后续大规模结构化数据的分析和挖掘,同时本发明在提高数据采集效率情况下能大大降低海量网页采集的软硬件成本。

技术领域

本发明涉及互联网信息爬取技术领域,特别是基于分布式架构的可视化主题网页内容爬取系统及方法。

背景技术

2000年以后互联网进入爆发式发展,互联网承载了海量信息,为了高效提取和利用信息诞生了以百度,谷歌,雅虎等为代表的通用搜索引擎,搜索引擎为了能达到索引海量信息的目的,诞生了“爬虫”又称“网络蜘蛛(Spider)”。

爬虫是一个可以定向抓取相关网页资源的一段程序或者脚本,可以分为通用网络爬虫、聚焦网络爬虫、增量网络爬虫、深度网页爬虫等。不管哪一类爬虫都面临着如下重要问题需要解决:互联网上网页数量超过百亿急需提升爬虫效率和改变底层存储架构,前端页面越来越多动态页面,传统解析方式不再适用。网站反爬取技术研究越来越成熟,传统粗暴的基于http或者https请求返回结果进行解析方式不再通用。

发明内容

针对现有技术存在的不足,本发明提供一种基于分布式架构的可视化主题网页内容爬取系统及方法,能够高效并发支持网页内容请求,爬取各种主题网站,并且可以把非结构化网页内容数据转化为结构化数据进行存储便于后续分析使用,网页爬取系统高度模块化及自动化。

为了达到上述目的,本发明通过以下技术方案来实现:基于分布式架构的可视化主题网页内容爬取系统,包括可视化子系统、爬取子系统以及分布式存储索引子系统,每个子系统分若干模块,模块间耦合度小,整个系统在可靠性,可扩展性以及运行效率和成本上相对于传统方法都有很大的优势。

本发明进一步:所述可视化子系统包括任务配置模块、前端展示模块以及登入权限控制模块,用于登入后可以在web界面上初始化配置爬取任务,对爬取任务进行优先级调整,查看爬取任务进度,查看不同主题页面成功失败统计信息,查看被爬取页面的详细内容。

所述爬取子系统包括代理IP采集管理模块、任务调度模块、页面下载模块、页面抽取模块、数据传输模块以及任务信息统计模块,用于对待爬取的主题网页任务配置,请求网页,解析爬取的内容成数据结构化并存储到存储子系统。

所述分布式存储索引子系统包括分布式存储模块、索引模块和计算模块,用于存储结构化后的页面数据,并按照keywords,文章内容,标题等元素进行索引。

基于分布式架构的可视化主题网页内容爬取方法,其特征在于,包括以下步骤:

1)任务初始化提交;

2)任务生成;

3)任务调度;

4)任务执行;

5)任务状态跟踪。

本发明进一步:所述任务初始化提交包括待爬主题网站域名,预设爬取优先级,爬取方式,爬取算法,解析规则,是否进行索引,通过登入可视化web界面,配置需要爬取的主题网站。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州艾塔科技有限公司,未经杭州艾塔科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811041524.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top