[发明专利]一种基于Spark SQL临时视图的快速ETL方法在审

专利信息
申请号: 202211580856.1 申请日: 2022-12-09
公开(公告)号: CN115809294A 公开(公告)日: 2023-03-17
发明(设计)人: 张永强;王冬冬;邓唯玉;王凯;张雄彪;李显锋;陶天林;李庄庄 申请(专利权)人: 武汉达梦数据技术有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/22
代理公司: 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 代理人: 张璐
地址: 430000 湖北省武汉市东湖新技术*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark sql 临时 视图 快速 etl 方法
【说明书】:

发明涉及一种基于Spark SQL临时视图的快速ETL方法、装置、设备及介质,其构建每个ETL步骤的SQL语句,并根据SQL语句构建流程节点以及整个ETL过程的目标流程DAG图,再通过Spark基于目标流程DAG图的拓扑序列,依次建立每个流程节点的临时视图,并向目标数据库输出目标数据。相比于现有技术,本发明将Spark SQL与ETL过程中用到的DAG图进行整合,最终将DAG图表达为一个完整、全流程的Spark SQL,并运行在Spark平台实现ETL工具的基本功能,提高了开发效率,该ETL过程仅在最后的临时视图构建完毕后,才开始执行数据的处理动作,极大地节约了硬件资源,提高了ETL效率。

技术领域

本发明涉及数据仓库技术领域,尤其涉及一种基于Spark SQL临时视图的快速ETL方法、装置、设备及介质。

背景技术

在数据中台建设案例中,ETL工具是构建数据仓库的核心组件,在开发ETL处理过程时,通常采用WEB图形化界面,将各个步骤节点构建形成一个DAG有向无环图,并在数据处理程序中解析DAG图为节点信息和连线信息等逻辑存储结构,通过不同的节点类型加载不通的节点组件,节点组件中包含了运算的逻辑,通过节点组件完成数据的读取、清洗转换、数据装载等操作。

通常使用上述思路构建时,需要自顶而下遍历DAG图,将DAG中的每个节点运行的结果数据存储到分布式文件系统或者数据库中,并在下游节点计算时,通过读取上游节点的磁盘中的计算结果再进行当前节点数据计算操作,并在计算完成后,将结果数据写入到磁盘,供下游节点使用。这种方式的优点在于,在流程运行完成后,可以预览任意一个节点执行结果数据或者以流程中任意一个节点为根节点仅执行下游的节点操作。

但是这种方式的弊端在于,每个节点都会存在从网络中读取数据,然后进行计算之后,再写结果数据到磁盘的过程,这个过程在数据量较小时,或者数据处理流程较短时,可能比较正常,但是针对流程较多,且数据量较大时,这种方式将会大大降低数据计算处理的速度。并且上述这种方式也大大破坏了使用Spark作为底层进行ETL数据处理计算时,内存计算的优势。因此人们亟需一种新的ETL处理方法,用于解决上述过程中基于DAG图进行ETL处理时效率低下的问题。

发明内容

有鉴于此,有必要提供一种基于Spark SQL临时视图的快速ETL方法、装置、设备及介质,用以解决现有技术中基于DAG图进行ETL处理时效率低下的问题。

为达到上述技术目的,本发明采取了以下技术方案:

第一方面,本发明提供了一种基于Spark SQL临时视图的快速ETL方法,包括:

根据目标ETL步骤,构建所述ETL步骤对应的SQL语句,并基于所述SQL语句建立与所述ETL步骤对应的流程节点;

根据所述流程节点,构建目标流程DAG图;

遍历所述目标流程DAG图,得到多个所述流程节点的拓扑序列;

基于所述拓扑序列,依次通过Spark根据所述SQL语句,建立所述流程节点对应的临时视图,根据最后得到的所述临时视图处理数据,并向目标数据库输出目标数据。

进一步的,所述根据目标ETL步骤,构建所述ETL步骤对应的SQL语句,并基于所述SQL语句建立与所述ETL步骤对应的流程节点,包括:

建立目标节点的节点ID,并根据所述目标节点的节点ID,建立所述目标节点的视图名;

根据所述ETL步骤,建立节点类型;

根据所述目标ETL步骤的动作内容和所述目标节点的视图名,构建所述目标节点的SQL语句;

根据所述目标节点的节点ID、所述节点类型和所述目标节点的SQL语句,构建所述目标节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉达梦数据技术有限公司,未经武汉达梦数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211580856.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top