[发明专利]应用于ETL的数据处理方法和装置及电子设备在审
申请号: | 202111165389.1 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113886478A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 查金祥 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/23;G06F16/28 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王剑 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 etl 数据处理 方法 装置 电子设备 | ||
公开了一种应用于ETL的数据处理方法和装置及电子设备。包括:对ODS层的新表中数据执行数据治理,生成STD层的新表;将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;对所述STD层的新表中数据执行数据开发,生成DWD层的新表;将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;将所述STD层和/或DWD层中的增量数据写入到目标服务库中。
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种应用于ETL的数据处理方法和装置及电子设备。
背景技术
ETL(Extract-Transform-Load)是一种集合了数据抽取(extract)、数据转换(transform)和数据加载(load)的技术。
在采用ETL技术的大数据项目中,通常包含以下几个数据处理阶段:
1、数据接入阶段,用于通过ETL的数据抽取技术,将数据从前置库中抽取到综合库。其中,所述前置库是原始数据所在的数据库,所述综合库是大数据平台的数据库。
2、数据开发阶段,用于通过ETL的数据转换技术,对抽取到综合库中的数据进行处理。所述处理可以包括例如数据清洗、数据融合等数据治理方式。
3、数据推送阶段,用于通过ETL的数据加载技术,将数据转换后综合库中的待加载数据同步到服务库。
4、数据服务阶段,用于通过ETL的数据传输技术,将服务库中的数据提供给应用。例如,数据服务系统基于服务库中的数据,以预设的网络接口如REST API,对应用提供数据服务。
其中,在数据推送阶段中,将数据转换后输出的待加载数据同步到服务库时,由于服务库的目的表(写入待加载数据的表)中数据和待加载数据可能存在主键冲突的情况,为了确保数据写入的正常执行,需要先清空服务库中的目的表,然后再将待加载数据全量写入到清空后的目的表中。
但是,清空目的表不仅需要消耗额外的时间,而且目的表中原本存储的数据被清空后也无法恢复。
发明内容
本说明书实施例提供的一种应用于ETL的数据处理方法及装置、电子设备。
根据本说明书实施例的第一方面,提供一种应用于ETL的数据处理方法,所述方法包括:
对ODS层的新表中数据执行数据治理,生成STD层的新表;其中,所述ODS层的新表用于存储本轮ETL执行数据抽取后获取的待处理数据;所述STD层的新表用于存储本轮ETL执行数据治理后获取的标准化数据;
将STD层的新表与旧表进行比较,以识别所述STD层的新表中的增量数据;其中,所述STD层的旧表用于存储上一轮ETL执行数据治理后获取的标准化数据;
对所述STD层的新表中数据执行数据开发,生成DWD层的新表;其中,所述DWD层的新表用于存储本轮ETL执行数据开发后获取的待加载数据;
将所述DWD层的新表与旧表进行比较,以识别所述DWD层的新表中的增量数据;其中,所述DWD层的旧表用于存储上一轮ETL执行数据开发后获取的待加载数据;
将所述STD层和/或DWD层中的增量数据写入到目标服务库中。
根据本说明书实施例的第二方面,提供一种应用于ETL的数据处理装置,所述装置包括:
第一生成模块,用于对ODS层的新表中数据执行数据治理,生成STD层的新表;其中,所述ODS层的新表用于存储本轮ETL执行数据抽取后获取的待处理数据;所述STD层的新表用于存储本轮ETL执行数据治理后获取的标准化数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111165389.1/2.html,转载请声明来源钻瓜专利网。