[发明专利]一种基于Hadoop集群的海量空间数据质检方法和系统在审
申请号: | 202211056625.0 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115495429A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 胡剑锋;罗顶林 | 申请(专利权)人: | 上海飞未信息技术有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/11;G06Q10/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 集群 海量 空间 数据 质检 方法 系统 | ||
本发明公开了一种基于Hadoop集群的海量空间数据质检方法和系统,分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述。本发明主要解决海量空间数据质检工作效率低,耗时费力,影像数据入库效率的问题,使用该方法和系统可以将海量空间数据的图形和属性的多个质检规则在数分钟内完成质检,提高空间数据入库效率。
技术领域
本发明涉及空间数据质检技术领域,具体为一种基于Hadoop集群的海量空间数据质检方法和系统。
背景技术
随着对地卫星观测系统的发展,人们对于遥感数据尤其是遥感影像数据的获取能力不断提升,因此人们获得的遥感影像数据逐步呈现多源、多尺度、多时相、全球覆盖和高分辨率特征,同时数据量呈爆炸性式长,现今已经达到了PB数据量级,对地观测手段的丰富,使得遥感影像数据的来源越来越多,越来越广,而不同的数据来源手段产生的数据的图幅大小、分辨率大小、图像的命名格式等不尽相同,而应对海量空间数据质检时工作效率低,耗时费力,影像数据入库效率,同时无法将海量空间数据的图形和属性的多个质检规则在数分钟内完成,在一定程度上降低了空间数据入库效率。
发明内容
本发明的目的在于提供一种基于Hadoop集群的海量空间数据质检方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Hadoop集群的海量空间数据质检方法,其生产方法包括以下步骤:
1、存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;
2、索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式;
3、并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则。
优选的,所述把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。
优选的,所述采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。
优选的,所述利用分布式存储的特点,同时在所有存储数据的节点上运行质检算法,主节点负责质检任务的分发和质检结果的汇总。
优选的,一种基于Hadoop集群的海量空间数据质检系统,主要包括数据集转换、数据发布、并行质检等功能:
1、数据集转换:针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算;
2、数据发布:提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引R-tree,并发布成数据服务,提供数据处理分析能力;
3、并行质检:对分布式存储系统的数据和已经发布的数据服务提供多种并行质检能力,包括属性检查、空间拓扑检查等。
与现有技术相比,本发明的有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞未信息技术有限公司,未经上海飞未信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056625.0/2.html,转载请声明来源钻瓜专利网。