[发明专利]支持接口适配的海量多源异构数据ETL方法及系统在审

专利信息
申请号: 201810588231.7 申请日: 2018-06-08
公开(公告)号: CN108846076A 公开(公告)日: 2018-11-20
发明(设计)人: 史玉良;王新军;张晖;管永明;吕梁;刘智勇 申请(专利权)人: 山大地纬软件股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250101 山东省济南*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多源异构数据 目标数据库 接口适配 转换 匹配 抽取 数据模型定义 数据转换步骤 参数设置 调度管理 海量数据 缓冲存储 基本信息 监控管理 控制执行 设置数据 数据抽取 数据对象 数据更新 数据加载 数据监控 系统运行 作业资源 表结构 自适应 质量检查 加载 清洗 核查 输出 管理
【说明书】:

发明公开了支持接口适配的海量多源异构数据ETL方法及系统。包括:数据抽取步骤,设置数据源和目标数据库的基本信息,为不同数据源自适应地匹配相应的ETL工具,并对ETL工具进行参数设置;数据转换步骤,完成ETL作业控制执行和调度管理,对所抽取的数据进行缓冲存储和管理,并完成数据的清洗和转换等处理;数据加载步骤,将经过转换后的数据对象进行质量检查,并按照数据模型定义的表结构输出,将核查无误后的数据更新加载至目标数据库中;数据监控步骤,对ETL作业执行过程、作业资源使用情况及系统运行情况进行监控管理。自适应地匹配合适的ETL工具,并实现海量数据的抽取与转换,实现ETL作业的高效执行和有序管理。

技术领域

本发明涉及ETL管理领域,特别涉及一种支持接口适配的海量多源异构数据ETL方法及系统。

背景技术

目前行业积累了大量数据,数据的容量、种类和变化都在急剧增加,但大数据尚未充分利用,其中蕴藏的巨大价值有待挖掘。大数据往往具有多源异构特性,来自不同的、分散的业务系统,存在结构化数据、半结构化数据、非结构化数据等多种类型,难以抽取并转换成所需的数据。在大数据环境下,数据呈现出大容量、多样式、交互频繁等特征,随着采集数据的不断增加,数据处理逻辑逐渐复杂,并且面临着海量多源异构数据在不同数据库之间传输效率问题。

传统的ETL工具价格昂贵,对具体的业务依赖性很高,且为集中式架构,即设计、运行管理都集中在一台服务器上,对硬件的要求非常高。在传统ETL管理模式下,一般根据源数据库与目标数据库的属性,人工判定ETL工具,并设置ETL任务流程、设置参数、启动任务,此种人工ETL管理模式流程复杂,消耗大量的人力和时间,且无法满足海量多源异构数据的ETL作业需求。因此需要探索在大数据环境下能够更经济、更高效地执行ETL(抽取、转换、加载)操作的装置。

发明内容

本发明的目的就是为解决上述问题,提出了一种支持接口适配的海量多源异构数据ETL方法及系统,针对来自不同、分散的系统的海量多源异构数据,基于接口适配器和ETL工具引擎自适应地选择合适的ETL工具,并基于HDFS、MapReduce、Spark等大数据处理技术实现ETL作业调度管理与高效执行,以及海量复杂数据的集中存储与处理转换。

为了实现上述目的,本发明采用如下技术方案:

作为本发明的第一方面,提供了支持接口适配的海量多源异构数据ETL方法;

支持接口适配的海量多源异构数据ETL方法,包括:

数据抽取步骤,设置数据源和目标数据库的基本信息,为不同数据源自适应地匹配相应的ETL工具,并对ETL工具进行参数设置;通过数据库接口、日志文件接口或流数据接口抽取不同的数据源;

数据转换步骤,基于MapReduce及Spark计算框架完成ETL作业控制执行和调度管理,基于HDFS、Hive或HBase对所抽取的数据进行缓冲存储和管理,并完成数据的清洗和转换;

数据加载步骤,将经过转换后的数据对象进行质量检查,并按照数据模型定义的表结构输出,将核查无误后的数据更新加载至目标数据库中;

监控管理步骤,对ETL作业执行过程、作业资源使用情况及系统运行情况进行监控管理。

作为本发明的进一步改进,所述数据抽取步骤,包括:

设置数据源及目标库子步骤,设置数据源和目标数据库的基本信息,包括:数据库类型、数据源与目标数据库之间的连接类型、数据库IP、数据库名称、端口、用户名、密码;

自适应匹配ETL工具子步骤,为不同的数据源自适应的匹配对应的ETL工具。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山大地纬软件股份有限公司,未经山大地纬软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810588231.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top