[发明专利]一种Spark集群系统的在线优化分区的任务调度方法及装置有效
申请号: | 201810486385.5 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108762921B | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 田文洪;叶宇飞;王金;许凌霄;匡平 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 邹裕蓉 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种Spark集群系统的在线优化分区的任务调度方法,属于在线集群资源调度技术领域。本发明所述方法包括步骤:统计上游Stage输出数据量大小、参与作业执行的总CPU核数、内存总量以及用于拉取数据的内存比例;根据输出数据量与用于拉取数据的内存容量的大小关系,计算任务执行的轮数,并设置优化的分区数量;监测计算节点的平均CPU利用率、内存利用率,对各计算节点的资源利用水平进行评估;降序排序所有节点的资源利用水平,优先调度任务给资源利用水平最高的节点执行;重复上述步骤直到所有任务调度完成。本发明能够自动配置优化的分区数量,提高集群的资源利用率,加快Spark作业的执行速度。 | ||
搜索关键词: | 资源利用水平 任务调度 分区 输出数据量 集群系统 计算节点 在线优化 拉取 内存利用率 资源利用率 大小关系 调度技术 集群资源 降序排序 节点执行 内存容量 内存总量 任务执行 优先调度 自动配置 作业执行 集群 轮数 内存 优化 上游 监测 重复 评估 统计 | ||
【主权项】:
1.一种Spark集群系统的在线优化分区的任务调度方法,其特征在于,包括以下步骤:步骤1.统计上游Stage输出数据量大小、参与作业执行的总CPU核数、内存总量和用于拉取数据的内存比例;步骤2.根据输出数据量与用于拉取数据的内存容量的大小关系,计算任务执行的轮数,并设置数据的分区数量;步骤3.监测计算节点的平均CPU利用率和内存利用率,对各计算节点的资源利用水平进行评估;步骤4.降序排列所有节点的资源利用水平,优先调度任务给资源利用水平最高的节点执行;步骤5.重复步骤3‑步骤4,直至所有任务调度完成;步骤1中,上游Stage输出数据量大小
其中,si为第i个计算节点上任务输出数据量大小,1≤i≤n,n为计算节点的数量;参与作业执行的总CPU核数
其中,CPUapp(i)为第i个计算节点上用于应用程序的CPU核数;内存总量
其中,Memapp(i)为第i个计算节点上用于应用程序的内存容量;用于拉取数据的内存比例α从Spark参数配置文件中读取;步骤2中,用于拉取数据的内存容量的大小为Memoryapp×α,将输出数据量S与用于拉取数据的内存容量Memoryapp×α进行大小比对:当S≤Memoryapp×α时,任务执行的轮数r=1,数据的分区数为Coreapp;当S>Memoryapp×α时,任务执行的轮数r=ceil(S/(Memoryapp×α)),其中ceil表示向上取整,数据的分区数为Coreapp×r。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810486385.5/,转载请声明来源钻瓜专利网。