[发明专利]一种基于Hadoop集群的海量空间数据质检方法和系统在审
申请号: | 202211056625.0 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115495429A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 胡剑锋;罗顶林 | 申请(专利权)人: | 上海飞未信息技术有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/13;G06F16/11;G06Q10/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201108 上海市闵行*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 集群 海量 空间 数据 质检 方法 系统 | ||
1.一种基于Hadoop集群的海量空间数据质检方法,其特征在于:其生产方法包括以下步骤:(1)存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;
(2)索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式;
(3)并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则。
2.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。
3.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。
4.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述利用分布式存储的特点,同时在所有存储数据的节点上运行质检算法,主节点负责质检任务的分发和质检结果的汇总。
5.一种基于Hadoop集群的海量空间数据质检系统,其特征在于:主要包括数据集转换、数据发布、并行质检等功能:
(1)数据集转换:针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算;
(2)数据发布:提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引R-tree,并发布成数据服务,提供数据处理分析能力;
(3)并行质检:对分布式存储系统的数据和已经发布的数据服务提供多种并行质检能力,包括属性检查、空间拓扑检查等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海飞未信息技术有限公司,未经上海飞未信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056625.0/1.html,转载请声明来源钻瓜专利网。