[发明专利]一种面向大数据的ETL方法和装置有效
申请号: | 201511008901.6 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105389402B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 刘心光;谢莹莹;郭庆;宋怀明;惠润海 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27;G06F16/215 |
代理公司: | 北京新知远方知识产权代理事务所(普通合伙) 11397 | 代理人: | 郭玉梅 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 etl 方法 装置 | ||
本发明提供了一种面向大数据的ETL方法和装置,该方法包括:获取参数配置文件;根据参数配置文件对待同步数据进行参数配置;通过ETL方法对参数配置后的数据进行同步。可以实现多种数据源间数据的导入导出功能,以及通过可视化界面的简单配置,实现基于hdfs数据的多种数据转换操作。
技术领域
本发明涉及ETL技术领域,尤其涉及一种面向大数据的ETL方法和装置。
背景技术
近几年来,互联网高速发展,社交网络逐渐走向成熟,云计算、物联网应用更加丰富,软件和硬件技术不断创新,这些变化使得政府和企业获得比以往任何时期都要多的数据,并且拥有了分析这些海量数据的计算能力和方法。目前,大数据已经成为一种像货币和黄金一样具有很大价值的经济资产,通过分析挖掘这些数据包含的潜在信息,可以推动企业,社会的发展。这些信息蕴含着巨大的商业价值,而对数据挖掘有意义的数据仅占其中的一小部分,因此为避免浪费不必要的时间,需要通过各种技术手段,把数据转换为信息、知识,而ETL(抽取-转换-装载)则是一种重要的技术手段。
ETL,是Extraction-Transformation-Loading的缩写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数据仓库的重要环节。ETL是将不同业务系统的数据抽取出来,并将不同数据源的数据进行清洗转换整合后加载到数据仓库中的过程,目的是将分散,标准不一致的数据整合起来,成为联机分析处理,数据挖掘的基础。
大数据环境下出现了很多数据处理分析的开源项目,以Hive为代表的基于SQL语言的大数据查询工具;从Google的Dremel系统延伸出的实时查询项目(impala);像PIG,Jaql的类脚本ETL处理工具;架构在Hadoop上的Java Api库(mapreduce算法包)。但这些开源项目的使用都是需要一定的编程基础的而且没有方便的UI界面,对数据分析人员还是不方便使用的。
虽然传统ETL工具,如kettle,talend在bigdata领域做了一定的扩展,提供了图形化的拖拽界面,但是学习使用成本高,并且部门组件在大数据环境下执行效率不理想。并且目前业界使用的ETL开源工具,没有可视化的图形界面或者图形界面使用不方便对非技术人员学习使用成本较高。而现有像Sqoop的大数据数据抽取工具,执行脚本冗长,需要操作人员具有一定的使用基础,对操作人员要求较高。另外,对于传统ETL工具,虽然kettle,talend在bigdata领域做了一定的扩展,提供了图形化的拖拽界面,但是学习使用成本高,并且部门组件在大数据环境下执行效率不理想。
发明内容
为解决上述问题,本发明提出了一种面向大数据的ETL方法和装置。
一方面,本发明实施例提供了一种面向大数据的ETL方法,包括:
获取同步作业的参数配置模板;
根据参数配置模板,对同步作业进行作业参数配置;
根据作业参数配置,通过ETL方法对待同步数据进行同步与清洗。
可选的,所述参数至少包括:参数名、输入路径、输出路径、数据字段范围、数据类型上述中的一种或多种。
可选的,所述进行作业参数配置具体为:通过一个或多个能写入参数的配置模板,对待同步数据进行参数配置。
可选的,所述待同步数据包括:FTP服务器、大数据平台、传统数据库中的一个或多个。
可选的,所述对数据进行同步包括:对FTP服务器与大数据平台之间进行数据同步,传统数据库与大数据平台之间进行数据同步,大数据平台内部之间的数据进行同步。
可选的,所述对数据进行同步之前还包括:对同步的数据匹配和过滤,并对匹配和过滤后的数据处理和合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511008901.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置