[发明专利]一种最小化作业完工时间的Spark任务分配方法有效
申请号: | 201910240852.0 | 申请日: | 2019-03-28 |
公开(公告)号: | CN110008013B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 李小平;徐威;朱夏;陈龙;李文政 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶倩 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 最小化 作业 完工 时间 spark 任务 分配 方法 | ||
本发明公开了一种最小化作业完工时间的Spark任务分配方法,先计算调度阶段优先级,再添加已就绪调度阶段到就绪调度阶段队列中,按优先级给就绪队列中的调度阶段分配资源,直至资源不够或就绪队列为空,若就绪队列为空则继续添加就绪调度阶段,若资源不够则等待有调度阶段完成并释放资源,重复上述操作直至所有作业完工,综合考虑了调度阶段所处的作业优先级和调度阶段是否处于关键路径上,在调度阶段内任务的资源分配方面,本方法考虑了数据传输时间和处理时间,使任务被放置在能最早完工的节点上执行。
技术领域
本发明属于云计算资源调度技术领域,具体涉及一种最小化作业完工时间的Spark任务分配方法。
背景技术
作为一种基于DAG的分布式计算框架,Spark被广泛用于电商和物联网用于复杂的大数据处理,每个Spark作业可以表示成一个DAG图,图上每个节点表示一个调度阶段,每个调度阶段由一组并行的任务构成,其中,Spark任务调度是影响大数据分析性能的关键因素,主要包括调度阶段优先级的确定和调度阶段内任务的资源分配。
在确定调度阶段优先级方面,对于处于属于不同作业的调度阶段,Spark框架比较各调度阶段所在的作业的优先级,对于属于同一作业的调度阶段,Spark框架仅根据调度阶段之间的偏序关系来确定优先级。然而对于同一作业的调度来说,Spark框架没有考虑到关键路径上的调度阶段分配资源对作业完工时间的影响。
在调度阶段内任务的资源分配方面,由于任务的完工时间由输入数据的传输时间和数据处理时间决定,基于同构集群,所有节点的处理能力一致,Spark框架仅考虑数据本地化来缩短任务所需的输入数据的传输时间。然而,随着高性能机器的引入,原有的数据中心已经变成由异构节点构成,任务在不同的节点上运行时处理速度不同,仅考虑数据本地化并不能得到任务的最早完工时间,因而存在很大的缺陷。
发明内容
本发明正是针对现有技术中的问题,提供了一种最小化作业完工时间的Spark任务分配方法,先计算调度阶段优先级,再添加已就绪调度阶段到就绪调度阶段队列中,按优先级给就绪队列中的调度阶段分配资源,直至资源不够或就绪队列为空,若就绪队列为空则继续添加就绪调度阶段,若资源不够则等待有调度阶段完成并释放资源,重复上述操作直至所有作业完工,综合考虑了调度阶段所处的作业优先级和调度阶段是否处于关键路径上,在调度阶段内任务的资源分配方面,本方法考虑了数据传输时间和处理时间,使任务被放置在能最早完工的节点上执行。
为了实现上述目的,本发明采用的技术方案是:一种最小化作业完工时间的Spark任务分配方法,包括以下步骤:
S1, 计算所有待处理作业集合中所有作业的各调度阶段的优先级;
S2,判断待处理作业集合中是否还有未完成资源分配的作业,若有,继续步骤S3;否则,方法结束;
S3,从所有作业中选择所有尚未完成资源分配且入度为0的调度阶段,将其插入到就绪调度阶段队列中,且保持该队列按作业及调度阶段优先级从高到低的顺序排列,所述队列中队首为优先级最高的作业中拥有最高优先级的待分配资源的调度阶段;
S4,判断就绪调度阶段队列是否不为空且服务资源充足,若是,继续步骤S5;若否,转入步骤S7;
S5,按照优先级依次为队列中的调度阶段分配资源,直至队列为空或者服务资源不够;
S6,将已分配资源的调度阶段从就绪调度阶段队列中删除;
S7,等待有调度阶段执行完,释放占用的资源,将执行完的调度阶段从该调度阶段所属的作业中删除,返回步骤S2。
作为本发明的一种改进,所述步骤S1进一步包括:
S11,对作业内调度阶段的拓扑进行排序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910240852.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信号量许可的调整方法及装置
- 下一篇:一种计算机信息处理系统