[发明专利]应用于Spark的作业分配方法及装置在审

专利信息
申请号: 202310194598.1 申请日: 2023-02-27
公开(公告)号: CN116048815A 公开(公告)日: 2023-05-02
发明(设计)人: 唐苏乐;曹磊;雷刚 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06F9/50 分类号: G06F9/50
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 崔博
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用于 spark 作业 分配 方法 装置
【说明书】:

发明实施例公开了一种应用于Spark的作业分配方法及装置,涉及大数据处理技术领域,该方法包括:确定待分配作业的作业类型;从Reducer节点集合中选择出一个目标Reducer节点,然后将所述待分配作业分配到该目标Reducer节点;根据第t次作业分配时所述目标Reducer节点在所述作业类型上的选择概率以及第t次作业分配时所述目标Reducer节点在非所述作业类型上的选择概率,重新确定所述目标Reducer节点的选择概率,然后缩放所述Reducer节点集合中其他Reducer节点的选择概率,本发明有助于解决Spark中因数据倾斜问题而导致数据处理性能下降问题。

技术领域

本发明涉及大数据处理技术领域,具体而言,涉及一种应用于Spark的作业分配方法及装置。

背景技术

随着企业需要处理的数据量级越来越大,Spark以其持久化数据以及少量IO读写大量内存执行导致的高处理效率的优势,被广泛用于大规模数据处理中。在许多Spark应用程序中,Map节点输出的数据在Reduce节点上分布不均匀,浪费了高容量Reduce节点的许多负载空间。通过对Spark的内部原理和数据处理过程进行分析和研究,发现Shuffle阶段的分区算法对数据的处理效率对整个任务的完成时间有着严重的影响。在Spark系统中,作业的总完成时间由最慢的Reduce任务决定,为某些低性能的Reduce分配大量数据会导致数据处理效率低,当其他Reduce处于空闲状态,都在等待当前Reduce处理完毕的时候,称为发生了数据倾斜问题。数据倾斜问题被认为是大数据处理平台中的瓶颈,它对大数据分析系统的性能产生了极大的影响。

如何解决Spark中因数据倾斜问题而导致数据处理性能下降,进而提高Reduce阶段的数据处理效率是目前急需解决的技术问题。

发明内容

本发明为了解决Spark中因数据倾斜问题而导致数据处理性能下降的技术问题,提出了一种应用于Spark的作业分配方法及装置。

为了实现上述目的,根据本发明的一个方面,提供了一种应用于Spark的作业分配方法,该方法包括:

在进行第t次作业分配时,确定待分配作业的作业类型,其中,t为大于等于1的整数;

进行N轮Reducer节点选择直至从Reducer节点集合中选择出一个目标Reducer节点,然后将所述待分配作业分配到该目标Reducer节点;其中,在进行每轮Reducer节点选择时,先根据第t次作业分配时所述Reducer节点集合中各Reducer节点的选择概率从所述Reducer节点集合中选择出一个Reducer节点,然后计算该选择出的Reducer节点在所述作业类型上的负载阈值,若该选择出的Reducer节点在所述作业类型上的当前负载小于所述负载阈值,则将该选择出的Reducer节点确定为目标Reducer节点;若该选择出的Reducer节点在所述作业类型上的当前负载大于或等于所述负载阈值,则将该选择的Reducer节点从所述Reducer节点集合中删除,然后更新所述Reducer节点集合中剩余各Reducer节点的选择概率,进而进入下一轮Reducer节点选择,N为大于等于1的整数;

根据第t次作业分配时所述目标Reducer节点在所述作业类型上的选择概率以及第t次作业分配时所述目标Reducer节点在非所述作业类型上的选择概率,重新确定所述目标Reducer节点的选择概率,然后基于重新确定的所述目标Reducer节点的选择概率缩放所述Reducer节点集合中其他Reducer节点的选择概率,得到第t+1次作业分配时所述Reducer节点集合中各Reducer节点的选择概率。

可选的,所述应用于Spark的作业分配方法,还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310194598.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top