[发明专利]一种基于DAG的面向多计算框架的数据处理方法及系统在审
申请号: | 201710295064.2 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107273193A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 木伟民;张云;李名扬;金宗泽;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dag 面向 计算 框架 数据处理 方法 系统 | ||
技术领域
本发明涉及一种基于DAG的面向多计算框架的数据处理方法及系统,属于计算机软件技术领域。
背景技术
目前的数据处理系统大都是针对某一个特定的计算框架,或某两个特定的计算框架开发的。主要针对计算框架所处的集群情况进行模块的开发和调优。注重时间信息同步和日志获取这两个主要功能。数据处理系统还没有明确引入DAG(Directed acyclic graph,有向无环图)概念,目前有向无环图被广泛应用在仿真任务并行度分析和动态重路由调度等方面。
目前的数据处理系统与计算框架绑定,不具有对于计算框架的扩展性。同时,针对计算框架开发,使数据处理系统与底层计算框架绑定,耦合度高,向其他计算平台移植的难度大。以Spark为主的计算框架大都采用DAG做其主要的逻辑计划和物理计划载体,通过DAG特有的属性完成计算。
发明内容
本发明的目的在于提供一种基于DAG的面向多计算框架的数据处理方法及系统。通过实现指定的编程接口,使用户的开发脱离计算框架,降低开发难度,同时实现计算框架的可插拔。本发明通过构建算子之间的DAG,根据规则切分,合并,生成子作业的DAG,减少子作业数量,减少数据落地次数,提高计算框架的计算效率。
本发明的技术方案为:
一种基于DAG的面向多计算框架的数据处理方法,其步骤为:
1)用户根据目标计算场景选取算子,然后对选取的算子的输入输出进行连接并配置相应的参数,得到该目标计算场景;然后向管理器发送保存场景信息的请求;
2)管理器接收该请求,将场景信息保存到场景表中;管理器收到该目标计算场景的执行请求后,读取该场景表生成包含该目标计算场景信息的作业并发送给调度器;
3)调度器根据收到的作业生成对应的算子DAG并验证;对于算子DAG验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;
4)执行器对选定的计算框架进行适配,然后将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。
进一步的,所述调度器通过判断算子DAG的数据结构正确性和逻辑正确性验证算子DAG;其中,数据结构正确性即验证算子DAG是否满足有向无环图要求,逻辑正确性即验证算子前后连接和位置的正确性。
进一步的,所述调度器将同类算子合并在一起,生成子作业DAG;所述调度器对非同类算子进行切分,生成子作业DAG;其中,每一个子作业DAG中包含一个或多个算子。
进一步的,所述执行器根据生成的子作业DAG确定每一执行阶段的方法为:所述执行器对子作业DAG按广度优先的方式进行遍历,将无父节点的节点归并为同一个执行阶段,然后逻辑上删除无父结点且已经归并为同一个执行阶段的节点,对新暴露出来的无父结点且未归并到任何执行阶段中的节点进行归并操作,直至子作业DAG为空,从而确定每一执行阶段,每一个执行阶段中包含一个或多个子作业。
进一步的,所述管理器还保存场景执行后得到的执行实例和针对需按时执行的场景的定时执行信息;每一所述执行实例为一作业;所述作业包括场景信息、场景参数、算子信息、算子参数。
一种基于DAG的面向多计算框架的数据处理系统,其特征在于,包括web页面、管理器、调度器和执行器;其中,
web页面,用于为用户提供可视化的图形用户界面,根据目标计算场景选取算子,然后对选取的算子的输入输出进行连接并配置相应的参数,得到该目标计算场景;
管理器,用于保存算子信息、目标计算场景信息、用户信息和向调度器下发作业;
调度器,用于根据收到的作业生成对应的算子DAG并验证;对于算子DAG验证通过的算子生成子作业DAG;然后根据生成的子作业DAG确定每一执行阶段并将其发送给执行器;
执行器,用于对选定的计算框架进行适配,以及将调度器下发的每一执行阶段的子作业解释为该计算框架下的计算逻辑并触发计算;然后将计算结果提交给调度器。
本发明提供的基于DAG的面向多计算框架的数据处理系统主要包括:web页面、管理器、调度器和执行器。各部分以xml文件的形式交互,异步通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710295064.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产品交易的推进方法、服务器及系统
- 下一篇:任务执行方法和终端设备