[发明专利]基于工作流机制的并发式ETL转换方法无效

专利信息
申请号: 201210181714.8 申请日: 2012-06-04
公开(公告)号: CN102722355A 公开(公告)日: 2012-10-10
发明(设计)人: 王渊 申请(专利权)人: 南京中兴软创科技股份有限公司
主分类号: G06F9/38 分类号: G06F9/38;G06F9/46
代理公司: 南京天华专利代理有限责任公司 32218 代理人: 夏平
地址: 211153 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 工作流 机制 发式 etl 转换 方法
【说明书】:

技术领域

发明涉及到对传统过程化ETL模式进行创新改造,尤其是结合工作流技术和数据并行处理技术对常规的ETL模型进行重构和优化的引擎,其中涉及到数据抽取技术、数据转换、清洗和重构技术,工作流技术,数据并行处理技术,负载均衡技术等领域。

 

背景技术

目前,ETL指在构建数据仓库过程中对数据源中数据的抽取(Extract),经过数据转换后加载到数据仓库的过程。ETL整合了数据从数据源的收集、数据清洗、数据重构的流程和数据加载到目的端数据库、数据集市、数据仓库的流程,ETL是构建数据仓库系统的关键。然而目前,随着业务源数据量的不断增大,已经达到海量数据级别,而且,现在的商业环境下对数据分析的实时性要求也不断提高,这两者之间形成了尖锐的矛盾,其中一个很重要的原因就是ETL工具的效率和准确性的问题,包括以下三个方面:

1、基于过程化处理的机制,不能进行并行的数据抽取和转换,随着源数据量的增大,数据转换效率大大降低。

2、流程化程度低,没有用标准化流程去控制,从而对于转换过程中逻辑处理,异常处理的能力相对较低。

3、没有形成多工作任务协同工作机制,一般都是队列式任务执行机制,系统运行效率低,而且不能支持异常回退流程。

发明内容

本发明的目的是针对目前过程化、集中化、串行化ETL工具所带来的效率低,准确率低等一些列的问题,提出的一种基于工作流机制的并发式ETL转换方法。利用工作流技术和多线程并发技术,实现了ETL工作流的多个ETL 任务并发执行和单个任务内的多个ETL活动的并发执行。当同时执行多个ETL 工作流,且ETL工作流和ETL作业中并行分支较多时,可以明显的提高执行效率。与此同时,本引擎提出通过一种通过构建集群分布处理,并行管道技术构建并行ETl数据抽取引擎,能够大大提高数据本身的抽取效率,解决了多数据流的并行处理问题和转换处理的瓶颈问题。

本发明的技术方案是:

一种基于工作流机制的并发式ETL转换方法,该方法包括以下实现步骤:

A、建立基于WFMC模型(WFMC是工作流管理联盟)的面向数据任务的工作流进程,将多个工作流实例通过网络分布在不同的计算节点上;

B、建立多个并行的数据抽取转换执行进程即ETL进程,用于执行各工作流任务;

C、建立对上述并行进程即并行的工作流任务的主控管理进程,用于负责对并行抽取任务进行监控和管理; 

D、建立并行的任务管理调度进程,用于将工作流任务调取至主控管理进程。

本发明的方法还包括以下步骤:

E、建立一套并行工作流任务冲突的判断规则库,当工作流任务之间发成冲突时,采用该规则库的规则对工作流任务进行处理;

F、建立负载均衡监控进程,用于对并行进程的性能进行监控。

本发明的步骤B中,采用基于远程方法调用RMI(RMI全称:远程方法调用,从代码程序上把远程接口包装成方法,调用时感觉像是本地调用一样,屏蔽网络连接,便于外部系统集成网络服务)远程调度接口的并发式ETL引擎体系结构设计,该并发式ETL方法由部署在网络上的一个主控管理进程和多个执行进程组成,主控管理进程和执行进程之间通过RMI机制的远程调度接口进行通信。

本发明的步骤E的并行工作流任务冲突的判断规则库中,判断规则包括:“ 是空 ”, “ 非空 ” , “ 在列表中 ” , “ 包含 ” , “ 等于 ” , “ 不等于 ” , “ 小于 ” , “ 小于等于 ” , “ 大于 ” , “ 大于等于 ” , “ 规则表达式 ” , “ 开始字段 ” , “ 结束字段 ” 在内的多种判断机制。

本发明的步骤D中所述的并行的任务管理调度方法为采用队列轮询检查机制 Round Robin的任务调度方法包括以下步骤:

首先,建立调度管理线程池,初始状态时,线程池中有若干个调度管理线程;

执行工作流任务时,从调度管理线程池获取一个空闲的调度管理线程,如果没有空闲线程则等待被通知;否则,从工作流任务的等待队列中取出一个工作流实例放入工作流执行队列,并交由前述获取的空闲调度管理线程进行调度,调度管理线程通知主控管理进程的任务管理部分建立工作流任务实例并放入待执行任务队列,重复此过程直到待执行任务队列为空或调度管理线程池为空。

本发明的步骤B中,数据抽取转换执行进程采用不改变数据元结构的数据流分割模式对数据进行并行分割抽取。

本发明的并行进程即并行的工作流任务之间的通讯采用基于共享内存的管道通信机制来完成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中兴软创科技股份有限公司,未经南京中兴软创科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210181714.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top