[发明专利]基于Spark技术的ETL系统及其方法在审
申请号: | 201710088150.6 | 申请日: | 2017-02-20 |
公开(公告)号: | CN106897411A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 陈涛;黄卓凡;张志聪;李笋;林志广 | 申请(专利权)人: | 广东奡风科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 东莞市神州众达专利商标事务所(普通合伙)44251 | 代理人: | 皮发泉 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于Spark技术的ETL系统,其包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块和数据存储模块;数据存储模块包括中转数据存储库、整合数据存储库和元数据控制文件;数据抽取模块用于抽取源数据,在分布节点上动态生成多个Spark RDD,并对其进行并行处理;数据处理模块用于读取数据抽取模块生成的Spark RDD,经过元数据匹配检查和数据转换后保存在中转数据存储库中;数据整合模块用于对当天的中转数据和上一天的整合数据进行数据整合后保存在整合数据存储库中;数据输出模块用于对当天整合后数据进行格式转换并输出。本发明基于Spark技术,可以线性平滑扩展,运行速度快,无需人工干预,易于管理和维护。 | ||
搜索关键词: | 基于 spark 技术 etl 系统 及其 方法 | ||
【主权项】:
一种基于Spark技术的ETL系统,其特征在于,其包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块和数据存储模块;数据存储模块包括中转数据存储库、整合数据存储库和元数据控制文件;数据抽取模块用于抽取源数据,并根据数据分块规则在分布节点上动态生成多个Spark RDD,再通过线程池启动多个线程来调用数据处理模块对每个Spark RDD进行并行处理;数据处理模块用于读取数据抽取模块生成的Spark RDD,经过元数据匹配检查和一系列数据转换,得到处理后的数据,并保存在中转数据存储库中;数据整合模块用于对当天的中转数据和上一天的整合数据进行全量数据整合或历史数据整合,得到当天整合后数据,并保存在整合数据存储库中;数据输出模块用于根据数据应用系统对数据格式的要求,对当天整合后数据进行格式转换并输出;元数据管理模块用于将系统各种要素进行参数化定义和管理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东奡风科技股份有限公司,未经广东奡风科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710088150.6/,转载请声明来源钻瓜专利网。