[发明专利]基于分布式网络爬虫的地理空间数据获取系统及方法有效

专利信息
申请号: 202110640002.7 申请日: 2021-06-09
公开(公告)号: CN113254747B 公开(公告)日: 2021-10-15
发明(设计)人: 杜志强;呙维 申请(专利权)人: 南京北斗创新应用科技研究院有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9537;G06F16/29;G06F16/25;G06F9/50
代理公司: 南京创略知识产权代理事务所(普通合伙) 32358 代理人: 闫方圆
地址: 210000 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 分布式 网络 爬虫 地理 空间 数据 获取 系统 方法
【说明书】:

发明公开了一种基于分布式网络爬虫的地理空间数据获取系统及方法,系统包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块,通过网络爬虫的方式进行互联网空间信息采集,抽取出目标数据及时存入数据库中,可以为对泛在地理空间数据进行进一步的管理使用提供了数据基础。清楚各种来源数据的特点和共同之处。通过归类总结不同类型数据、不同来源数据的获取方法,针对重要的泛在地理空间数据源设计定制化的数据获取应用,并将其融合到分布式爬虫框架中进行综合调度管理,可以实现良好的泛在数据获取效果。

技术领域

本发明涉及数据挖掘技术领域,具体涉及一种基于分布式网络爬虫的地理空间数据获取系统及方法。

背景技术

空间信息在过去是依赖专业人员通过专业工具测量的方式获取,而随着互联网、物联网等技术的发展,任何人都可以通过手机等个人设备快捷获取、并共享空间位置信息。这种智能、实时、高效的地理情境感知式的“全民测绘”体现了泛在地理信息服务的特征,让我们进入了泛在测绘的时代。泛在地理空间信息由空间信息和泛在测绘的概念拓展而来,指无处不在的地理空间信息,既包括专业测绘数据,也包括互联网上各类垂直网站、社交媒体中带有地理位置信息的视频流、文章等主题信息,以及人们使用智能手机共享的地理位置相关信息。

公开互联网环境下的信息搜集,是获取泛在地理空间信息的重要途径之一。由于互联网环境下数据种类多样、来源广泛,如何高效快速地从公开互联网获取各类泛在地理空间信息成为一个重要问题。

当前,网络爬虫是一种可以自动在网络上遍历网页查找信息的技术,它可以辅助相关人员从目标数据源站点定向爬取数据。网络爬虫的基础工作逻辑是从一个链接请求开始,在固定的目标网站上进行精准的数据搜集,之后通过网络协议获取网页加载结果,解析页面内容并抽取出有效数据链接,再以循环迭代的方式完成对整个数据网络的遍历访问。

因此,如何通过网络爬虫的方式进行互联网空间信息采集,抽取出目标数据及时存入数据库中,为对泛在地理空间数据进行进一步的管理使用提供了数据基础,是当前需要解决的问题。

发明内容

本发明的目的是克服如何通过网络爬虫的方式获取地理空间数据的问题。本发明的基于分布式网络爬虫的地理空间数据获取系统及方法,能够支持对多源异构web互联网站点的地理空间数据进行分布式获取,支持纳管多类型的单机地理空间爬虫应用;通过独有的调度引擎机制,充分利用分布式集群环境下的多机计算资源,调用单体爬虫应用来进行并行的数据获取,从而能够提高数据获取效率,具有良好的应用前景。

为了达到上述目的,本发明所采用的技术方案是:

一种基于分布式网络爬虫的地理空间数据获取系统,包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块,

所述用户需求发布模块,用于支持用户在选择获取数据的类型、设置获取数据的时空范围,配置数据抓取的周期参数,并编辑完成后提交调度引擎服务模块,并由调度引擎服务模块将用户需求保存分布式爬虫数据库模块;

所述调度引擎服务模块,用于接收用户需求,并将用户需求拆解为可执行的爬虫子任务,同时支持向HTCondor集群模块提交爬虫任务,并监控爬虫任务的执行状态,对不同的任务状态做出针对性的响应操作;

所述可执行爬虫程序集模块,用于执行各类数据的任务拆分、数据源解析、数据抓取、数据下载入数据库的过程,并由各个定制化的爬虫小程序来完成,将定制化爬虫程序集合在一起,构成可执行程序集,便于可执行爬虫程序集模块分发任务提交HTCondor集群模块执行;

所述HTCondor集群模块,用于将当前提交的所有爬虫子任务,有序分配到符合爬虫程序资源要求的计算机节点下执行,执行结果通过分布式爬虫数据库模块输出到指定路径下,具体是通过一个任务提交节点、一个中央管理节点匹配若干个任务执行节点的配置,该任务提交节点可同时为中央管理节点;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京北斗创新应用科技研究院有限公司,未经南京北斗创新应用科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110640002.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top