[发明专利]基于内存计算、web可视化配置的多数据源ETL工具在审
| 申请号: | 202010856829.7 | 申请日: | 2020-08-24 |
| 公开(公告)号: | CN112035468A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 王一君;陈灿;王长振;谢鸿旺 | 申请(专利权)人: | 杭州览众数据科技有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/26;G06F16/28 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 内存 计算 web 可视化 配置 多数 etl 工具 | ||
1.基于内存计算、web可视化配置的多数据源ETL工具,其特征在于包括数据源层、作业层及目标数仓层,数据源层用于连接客户的数据关系数据库,可支持常用的关系数据库;作业层包括数据源层与目标数仓层的映射配置以及基于spark的数据传输模块;
映射配置主要体现在目标数仓层中数仓目标表与数据源层中数据来源业务表之间的关系;基于spark的数据传输模块能够使用spark的dataframe写表的自动建表功能,提高数据传输效率;
目标数仓为公司研发的标准数仓,该标准数仓使用经典的4层架构,分别为ods、edw、dm和rst,其中edw为按照标准Kimball模型创建的维度表和事实表,无论客户的业务系统什么结构,全部统一到标准edw表,edw表结构可提前初始化,同时也支持自定义目标表;初始化的目标表target_table最后会体现在各个作业的目标映射中。
2.根据权利要求1所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于目标数仓中的商品维表的字段包括:款号Product_code、颜色Color_code、尺码Size_code、尺码顺序号Size_order,均分别来自于业务表。
3.根据权利要求1所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于通过该工具,能够在web页面上直接拖拽配置出上述映射关系。
4.根据权利要求1所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于web页面配置是从左到右依次将相关信息存储到对应表中;反过来从右到左则可以推导出其来源表、来源字段,以及来源表的关联关系,后续的自动生成sql脚本步骤遵循此流程。
5.根据权利要求4所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于数据源信息会保存在datasoure和datasource_tree表,datasoure存储各个数据源的连接信息,datasource_tree则存储全部数据源的表及字段,涵盖库、schema、表、字段4级结构,当被引用时,在web页面中的最左边显示为数据源树,可点击展开;且在web页面即可读取源表及其字段,并通过拖拽的可视化手段能够形成源表的关联关系以及与目标表的字段映射;连接生成目标表所需要的源数据库,并在源数据库中选择所需的源表;完成字段映射后,自动化生成ETL抽数的ods脚本以及加工dim和fct的数据脚本。
6.根据权利要求5所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于可视化手段的实现如下:
将web页面最左侧第1栏中的表拖至第2栏,并选择所需字段,即形成图中的每个图形块,同时将有关联关系的表进行连线,形成由一张主表为核心的星型或是雪花型架构;可视化手段实现的页面配置会保存到job_table作业表、job_table_column作业表字段、job_table_relation作业表关系中。
7.根据权利要求6所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于web页面中所有在第3栏中出现的表及字段都会出现在第3栏,同时第3栏还增加基于多个表的计算字段。
8.根据权利要求7所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于根据web页面中第4栏的源、目标的字段映射,依次往前追溯,能够找到目标表以及作业的全部字段,并根据作业字段追溯出作业的表、作业表的字段、作业表间的关联关系,由作业表追溯出其所在的数据源,汇总出每个数据源的每张表的每个字段,即可编写ETL的ods脚本;
同时再结合表间关联关系以及目标表,转化为所有ods表的关联关系并匹配好每个关联的所需字段,即可编写对应到目标表的sql,并在最后一步写入目标表时调整好字段的对应顺序。
9.根据权利要求8所述的基于内存计算、web可视化配置的多数据源ETL工具,其特征在于对生成的ods脚本调用spark-ETL模块,实现源表到数仓ods层的数据传输,支持全量、增量;且整个工作的作业全部完成后,后台能够自动计算出所有脚本的依赖关系,并生成调度的作业依赖表job_relation;这些依赖关系被airflow调用后可视化展现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州览众数据科技有限公司,未经杭州览众数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010856829.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蜡烛漆及其生产工艺
- 下一篇:一种自动输送生产线在线清洗设备





