[发明专利]一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统无效
申请号: | 201410056681.3 | 申请日: | 2014-02-19 |
公开(公告)号: | CN103761111A | 公开(公告)日: | 2014-04-30 |
发明(设计)人: | 刘杰;叶丹;朱锋;魏峻 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bpel 语言 构建 数据 密集型 工作流 引擎 方法 及其 系统 | ||
技术领域
本发明涉及一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统,尤其涉及一种面向Hadoop平台的数据密集型工作流引擎的构建方法及其系统,其通过特定的模型转换方法将Hadoop工作流转换成BPEL语言描述的服务并采用BPEL引擎来调度执行,属于计算机软件领域。
背景技术
随着大数据时代的到来,数据密集型计算在学术界和工业界引起强烈关注。据IDC的一项调查报告中指出:在当今企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据将挑战企业的存储架构、数据中心的基础设施等,越来越多的企业面临着处理大数据的急迫需求。MapReduce框架以处理海量数据的高效性和简单性,受到工业界和学术界的广泛关注。它的开源实现Hadoop具有简单性、容错性和可扩展性,是目前最成功的数据密集型云计算平台。用户可以提交多个MapReduce Job到Hadoop集群,其中一个MapReduceJob由多个Map Task和多个Reduce Task组成。Hadoop集群中的JobTracker节点担当调度器的职责,负责这些MapReduce Job分派到各个Task Tracker节点上执行。
一个Hadoop工作流可以用一个有向无环图(DAG)来表示,节点代表MapReduce Job,边代表MapReduce Job间的数据依赖关系。以下所说的工作流和Job都代表Hadoop工作流和MapReduce Job。与单个MapReduce Job相比,Hadoop工作流能表达更复杂的数据处理逻辑,因而吸引了越来越多的研究者研究。
起初,一些科学工作流系统如Kelper,Pegasus,Swift,ASKALON都支持Job的并行执行,但是并没有和Hadoop进行集成。随后,Deniel Goodman在Martlet编程模型中提出了map,flodr和flodl的构造,并声明Martlet的抽象特性可以使用户采用并行编程方法进行数据分析而不需要考虑细节。Xubo Fei,Shiyong Lu等首次提出一种可以使用的MapReduce的科学工作流编译框架。Jianwu Wang,Deniel Crawl等人采用Kelper与Hadoop相集成的方法,实现一个具有图形化界面的通用数据密集型共组流系统。
同时,针对一些专有的领域,也出现了支持MapReduce的工作流模型,如MRGIS是专门处理地理信息系统的数据,CloudBurs算法适应于生物学领域。
Cascading,hamake,Azkaban等系统也是基于MapReduce的工作流系统。Cascading更类似一种编程语言,使用了“pipe and filters”(管道和过滤)来定义数据处理进程,支持分隔,合并,分组和排序操作。Hamake是一种轻量级的客户端工具,使用fold和foreach进行增量的数据处理。Azkaban还并不成熟,它提供友好的用户界面和基于时间的调度功能。
Nova是一种基于pig/hadoop的工作流系统,主要用来处理实时数据。Nova基于HDFS块的原子性,不断的跟踪的数据集,独立调度作业的不同部分,持续处理流式数据。
CloudWF支持运行由MapReduce和遗留的非MapReduce程序构成的工作流,将工作流中的数据集以及数据集之间的依赖关系分别作为一个独立的执行单元,用Hbase来储存工作流和执行单元的信息,采用轮询的方式来更新信息执行工作流。
现有的Hadoop工作流系统所使用的工作流语言提供了一些可选择的节点类型和控制逻辑关系,并且具有不同程度的监视和调度功能。但是存在以下几方面的问题:
(1)工作流描述语言异构,工作流互操作困难。已有的Hadoop工作流系统都采用自定义的工作流描述语言,不同的工作流系统生成的Hadoop工作流实例很难集成或者通信。企业通过对海量级别的数据报表处理,对结果进行分析做出相应的销售策略等。工作流需要调用企业内部的数据资源系统,又要使用Hadoop平台来存储和清理数据。传统的工作流系统难以与Hadoop平台通信,而现有的Hadoop工作流系统也不能调用企业已有系统提供的Web服务作为活动节点。
(2)Hadoop工作流表达能力较弱,支持简单的控制逻辑。极少数系统如Oozie支持fork、decision、join操作,而大部分都不支持高级的控制关系。对于需要处理复杂应用的用户必须手工编写和管理这些具有复杂逻辑的Hadoop工作流,这不仅是耗时,并且是充满麻烦的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410056681.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能二级充电结构
- 下一篇:一种锂电池组均衡电路