[发明专利]一种针对异构环境的基于Spark的自适应任务调度方法在审

专利信息
申请号: 201811179011.5 申请日: 2018-10-10
公开(公告)号: CN109376012A 公开(公告)日: 2019-02-22
发明(设计)人: 孙麟;田玲;罗光春;刘贵松;陈君 申请(专利权)人: 电子科技大学
主分类号: G06F9/50 分类号: G06F9/50;G06F9/48;G06N3/00;G06N3/04;G06N3/08
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应任务调度 动态调整 任务调度 任务执行 时间预测 异构环境 任务调度算法 调度 自适应调整 调度算法 模型开发 任务分配 任务迁移 任务数据 时间矩阵 数据采集 搜索调度 运行过程 综合考虑 采样 构建 搜索 进度
【说明书】:

发明提出一种针对异构环境的基于Spark的自适应任务调度方法,该方法包括:步骤1:数据采集;步骤2:构建任务执行时间预测模型;步骤3:任务调度,其中,任务调度主要通过采样执行、生成执行时间矩阵、基于PSO算法搜索调度方案以及任务迁移加速实现。通过任务执行时间预测模型开发出一种Spark平台的任务调度算法,该调度算法基于PSO算法搜索出一种最优的调度方案,并在运行过程中动态调整以推进执行进度,由于综合考虑了任务数据量和资源性能,并采用静态任务分配和动态调整相结合的方法,达到自适应调整调度方法的效果。

技术领域

本发明属于云计算、大数据处理技术领域,具体涉及并行计算框架Spark中的一种任务调度方法。

背景技术

Spark是一个快速、通用的大数据处理引擎,根据官网发布的实验结果可知,当内存充足时,Spark的运行速度比Hadoop MapReduce快100倍,即使内存不足,溢出到磁盘时,也快上10倍。这得益于Spark先进的DAG执行引擎,支持无环数据流和内存计算。

Spark之上的所有作业,最终都会以Job形式提交到Spark Core中进行调度执行,Job本质是弹性分布式数据集(RDD)的依赖图(DAG),DAG会从宽依赖的地方分开形成一个个Stage,一个Stage对应一个Task集合,称之为TaskSet,一个Task对应处理一个RDD分区,所以底层任务调度的工作就是调度TaskSet中的任务到Worker节点上去执行,并监控其运行状况。由于Stage之间通常是串行关系,如果一个TaskSet中的任务滞后,会导致对应的Stage滞后,进而导致整个Job的进度滞后。

对一个TaskSet进行任务调度,是一种独立任务调度,因为TaskSet中的每一个Task处理独立的数据分区,互相之间无依赖和通信。

理想情况下,RDD中的各个分区(Partition)的数据量是均匀的,而实际中,通常只有不存在父Stage的RDD满足这一点,因为它们没有经历Shuffle重分区,经过Shuffle阶段后各个分区的数据量会有明显差异,这是由于数据表中属性值分布不均造成的,这种现象被称为数据倾斜。数据倾斜是不可避免的,当出现数据倾斜时,那些数据量较大的分区,需要消耗更长的时间来处理。

对于任务调度,Spark默认采用的是一种基于数据本地化的延迟调度算法,该方法是从Hadoop MapReduce借鉴而来,其思想很简单,认为通常情况下,相比于CPU处理速率和磁盘I/O速率,网络传输的速率是缓慢的,因此应该尽量减少数据的网络传输,即尽量把任务调度到输入数据所在位置,或者说调度到拥有输入数据比例较大的位置,这个位置被称为任务的优先位置。但是这一点经常无法满足,因为节点资源有限,当任务无法立即调度到优先位置执行时,Spark会选择延迟等待一段时间,当超过等待时间仍然无法调度到优先位置时,则降低任务的数据本地化要求,即调度到其它位置去执行。

Spark的任务调度算法简单有效,但其延迟等待时长配置为一个固定值,无法自适应的调整调度策略,在数据倾斜或资源性能异构的环境中,存在很大的优化空间。通过改进任务调度算法,可以大大缩短Job的完成时间,因此需要开发更有效的任务调度算法。

发明内容

有鉴于此,本发明的目的在于提供一种更有效的任务调度算法,以缩短Spark Job的完成时间,采用的技术方案总体上包括以下步骤:

1)数据采集

这一步骤是采集Spark集群任务执行日志,日志由多条任务记录组成,每一条记录包含影响任务执行时间的变量值和实际执行时间,影响任务执行时间的变量主要包括数据量、任务复杂度和节点的性能指标。

2)构建任务执行时间预测模型

根据上一步骤采集到的任务执行日志数据,生成训练数据集;

然后设置用于回归预测任务执行时间的RBF神经网络的网络结构;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811179011.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top