[发明专利]一种Spark集群系统的在线优化分区的任务调度方法及装置有效

专利信息
申请号: 201810486385.5 申请日: 2018-05-18
公开(公告)号: CN108762921B 公开(公告)日: 2019-07-12
发明(设计)人: 田文洪;叶宇飞;王金;许凌霄;匡平 申请(专利权)人: 电子科技大学
主分类号: G06F9/50 分类号: G06F9/50;G06F9/48
代理公司: 电子科技大学专利中心 51203 代理人: 邹裕蓉
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种Spark集群系统的在线优化分区的任务调度方法,属于在线集群资源调度技术领域。本发明所述方法包括步骤:统计上游Stage输出数据量大小、参与作业执行的总CPU核数、内存总量以及用于拉取数据的内存比例;根据输出数据量与用于拉取数据的内存容量的大小关系,计算任务执行的轮数,并设置优化的分区数量;监测计算节点的平均CPU利用率、内存利用率,对各计算节点的资源利用水平进行评估;降序排序所有节点的资源利用水平,优先调度任务给资源利用水平最高的节点执行;重复上述步骤直到所有任务调度完成。本发明能够自动配置优化的分区数量,提高集群的资源利用率,加快Spark作业的执行速度。
搜索关键词: 资源利用水平 任务调度 分区 输出数据量 集群系统 计算节点 在线优化 拉取 内存利用率 资源利用率 大小关系 调度技术 集群资源 降序排序 节点执行 内存容量 内存总量 任务执行 优先调度 自动配置 作业执行 集群 轮数 内存 优化 上游 监测 重复 评估 统计
【主权项】:
1.一种Spark集群系统的在线优化分区的任务调度方法,其特征在于,包括以下步骤:步骤1.统计上游Stage输出数据量大小、参与作业执行的总CPU核数、内存总量和用于拉取数据的内存比例;步骤2.根据输出数据量与用于拉取数据的内存容量的大小关系,计算任务执行的轮数,并设置数据的分区数量;步骤3.监测计算节点的平均CPU利用率和内存利用率,对各计算节点的资源利用水平进行评估;步骤4.降序排列所有节点的资源利用水平,优先调度任务给资源利用水平最高的节点执行;步骤5.重复步骤3‑步骤4,直至所有任务调度完成;步骤1中,上游Stage输出数据量大小其中,si为第i个计算节点上任务输出数据量大小,1≤i≤n,n为计算节点的数量;参与作业执行的总CPU核数其中,CPUapp(i)为第i个计算节点上用于应用程序的CPU核数;内存总量其中,Memapp(i)为第i个计算节点上用于应用程序的内存容量;用于拉取数据的内存比例α从Spark参数配置文件中读取;步骤2中,用于拉取数据的内存容量的大小为Memoryapp×α,将输出数据量S与用于拉取数据的内存容量Memoryapp×α进行大小比对:当S≤Memoryapp×α时,任务执行的轮数r=1,数据的分区数为Coreapp;当S>Memoryapp×α时,任务执行的轮数r=ceil(S/(Memoryapp×α)),其中ceil表示向上取整,数据的分区数为Coreapp×r。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810486385.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top