[发明专利]支持接口适配的海量多源异构数据ETL方法及系统在审
申请号: | 201810588231.7 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108846076A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 史玉良;王新军;张晖;管永明;吕梁;刘智勇 | 申请(专利权)人: | 山大地纬软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250101 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多源异构数据 目标数据库 接口适配 转换 匹配 抽取 数据模型定义 数据转换步骤 参数设置 调度管理 海量数据 缓冲存储 基本信息 监控管理 控制执行 设置数据 数据抽取 数据对象 数据更新 数据加载 数据监控 系统运行 作业资源 表结构 自适应 质量检查 加载 清洗 核查 输出 管理 | ||
1.支持接口适配的海量多源异构数据ETL方法,其特征是,包括:
数据抽取步骤,设置数据源和目标数据库的基本信息,为不同数据源自适应地匹配相应的ETL工具,并对ETL工具进行参数设置;通过数据库接口、日志文件接口或流数据接口抽取不同的数据源;
数据转换步骤,基于MapReduce及Spark计算框架完成ETL作业控制执行和调度管理,基于HDFS、Hive或HBase对所抽取的数据进行缓冲存储和管理,并完成数据的清洗和转换;
数据加载步骤,将经过转换后的数据对象进行质量检查,并按照数据模型定义的表结构输出,将核查无误后的数据更新加载至目标数据库中;
监控管理步骤,对ETL作业执行过程、作业资源使用情况及系统运行情况进行监控管理。
2.如权利要求1所述的支持接口适配的海量多源异构数据ETL方法,其特征是,所述数据抽取步骤,包括:
设置数据源及目标库子步骤,设置数据源和目标数据库的基本信息,包括:数据库类型、数据源与目标数据库之间的连接类型、数据库IP、数据库名称、端口、用户名、密码;
自适应匹配ETL工具子步骤,为不同的数据源自适应的匹配对应的ETL工具;
所述自适应匹配ETL工具子步骤中,如果数据源或目标数据库为数据库数据,若有一方为非关系型数据库HDFS,则自适应地匹配ETL工具Sqoop;否则自适应的匹配ETL工具Kettle;如果数据源为日志文件,则自适应地匹配ETL工具Flume;如果数据源为流数据,则自适应地匹配ETL工具Kafka;
ETL工具参数配置子步骤,ETL工具匹配完成后设置环境变量、任务参数。
3.如权利要求1所述的支持接口适配的海量多源异构数据ETL方法,其特征是,所述数据转换步骤,包括:
作业流程设计子步骤,指根据实际业务逻辑设计作业控制流程,包括抽取方式及ETL任务流程;
作业调度管理子步骤,包括:作业调度策略、作业依赖控制、作业优先级配置、作业调度控制,其中,作业调度策略包括时间触发、事件触发和实时处理方式;作业依赖控制是指根据实际业务逻辑制定作业之间的依赖关系;作业优先级配置指根据实际业务逻辑和系统资源使用情况制定作业的优先级;作业调度控制是指设置作业调度资源预警阈值,在资源使用超过阈值时,暂停优先级低的作业;
作业执行子步骤,负责ETL作业的执行;
所述作业执行子步骤中,Sqoop启动只有map的MapReduce作业,根据数据切分值逐行读取数据;Kettle建立转换Transformation和任务Job,设置各环节任务参数后,启动工作流程进行数据抽取;Flume通过其source组件收集日志数据,放在channel组件中进行缓存,并由sink组件将数据发送至目的地;Kafka采集到流数据后分解成一系列批处理作业由Spark中的分布式弹性数据集进行实时处理;
分布式缓存子步骤,对抽取的数据进行缓冲存储,其中HDFS负责底层数据的存储,Hive负责数据的过滤、汇总、查询、分析,HBase负责数据的变更维护,对在数据转换计算过程被频繁读取的数据进行存储;
业务规则制定子步骤,根据实际业务规则,制定数据清洗、转换的业务规则;
数据处理子步骤,根据制定的业务规则,完成数据的清洗和转换,其中数据清洗完成数据的补缺、修正和清洗,数据转换完成数据的不一致转换、数据粒度转换和标准转换。
4.如权利要求1所述的支持接口适配的海量多源异构数据ETL方法,其特征是,数据加载步骤,包括:
数据质量检查子步骤,将经过转换后的数据对象进行质量检查,对由于网络中断原因造成的数据异常问题进行核查,并检查转换完成的数据质量是否符合目标数据库的标准;
数据更新加载子步骤,将经过核查无误的数据加载到目标数据库中,按照预先定义好的数据模型,采用时间戳、日志表、全表比对、全表删除或插入的方式更新目标数据表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山大地纬软件股份有限公司,未经山大地纬软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810588231.7/1.html,转载请声明来源钻瓜专利网。