[发明专利]一种跨数据中心的ETL工具有效
| 申请号: | 202110552855.5 | 申请日: | 2021-05-20 |
| 公开(公告)号: | CN113312416B | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 兰波;莫加龙;万乐园;张鼎浩;张杰;龚连胜;杜在乾 | 申请(专利权)人: | 成都美尔贝科技股份有限公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215 |
| 代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 岳子强 |
| 地址: | 610000 四川省*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据中心 etl 工具 | ||
本发明公开了一种跨数据中心的ETL工具,包括任务调度模块、数据清洗模块、上传模块和存储模块,其中:所述任务调度模块,用于创建需要清洗的任务,并将任务存储在第一数据中心的数据库中;所述数据清洗模块,获取第一数据中心的数据库中需要清洗的任务的计划,拆分任务中的结构化数据和非结构化数据;所述上传模块,用于获取任务中结构化数据推送到第一数据中心的redis队列中进行清洗和入库,用于获取任务中的非结构化数据推送到第二数据中心的redis队列中进行清洗;所述存储模块,用于获取第二数据中心清洗的数据存储到第三数据中心的数据库;提高清洗的效率和稳定性,根据不同的数据中心的产品价格优势,降低使用成本。
技术领域
本发明属于数据的抽取、转换和加载技术领域,涉及一种跨数据中心的ETL工具。
背景技术
通常ETL的整个流程中都是在同一个数据中心(如一个公有云服务商)完成对数据的抽取(extract)、转换(transform)和加载(load)。不同的数据中心优缺点存在差异,有的公有云服务商的带宽下行流量和上行流量都将收费,有的公有云服务商的宽带仅收取上线流量费用,带宽无大小上限限制,有的公有云服务商存储价格相对较低。
目前,数据的抽取、转换和加载通常在一个数据中心完成,在价格和效率之间不能进行有效平衡。
发明内容
本发明的目的在于:提供了一种跨数据中心的ETL工具,解决了数据的抽取、转换和加载通常在一个数据中心完成,在价格和效率之间不能进行有效平衡的问题。
本发明采用的技术方案如下:
一种跨数据中心的ETL工具,包括任务调度模块、数据清洗模块、上传模块和存储模块,其中:
所述任务调度模块,用于创建需要清洗的任务,并将任务存储在第一数据中心的数据库中;
所述数据清洗模块,获取第一数据中心的数据库中需要清洗的任务的计划,拆分任务中的结构化数据和非结构化数据;
所述上传模块,用于获取任务中结构化数据推送到第一数据中心的redis队列中进行清洗和入库,用于获取任务中的非结构化数据推送到第二数据中心的redis队列中进行清洗;
所述存储模块,用于获取第二数据中心清洗的数据存储到第三数据中心的数据库。
进一步地,所述任务调度模块为定时或固定间隔时间创建需要清洗的任务。
进一步地,所述非结构化数据包括图片或/和视频或/和音频。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明一种跨数据中心的ETL工具,充分利用不同数据中心的特性和价格,将非结构化数据和结构化数据分拆再分别清洗,通过在不同的数据中心上联合作用,提高清洗的效率和稳定性,根据不同的数据中心的产品价格优势,降低使用成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:
图1是本发明的框架示意图;
图2是本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都美尔贝科技股份有限公司,未经成都美尔贝科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110552855.5/2.html,转载请声明来源钻瓜专利网。





