[发明专利]一种解决Spark数据倾斜问题的负载均衡方法及装置有效

申请号：	201810374429.5	申请日：	2018-04-24
公开（公告）号：	CN108572873B	公开（公告）日：	2021-08-24
发明（设计）人：	田文洪;黄超杰;王金;尚明生	申请（专利权）人：	中国科学院重庆绿色智能技术研究院
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400714 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种解决 spark 数据倾斜问题负载均衡方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种解决Spark数据倾斜问题的负载均衡方法，包括S1：监测计算节点的平均CPU利用率、内存利用率，Spark Executor进程启动后，初始化Executor的权重信息；S2：每个计算节点根据预设抽样比例对本地中间数据进行抽样，然后将本地抽样信息通过消息通信发送给Master节点；S3：Master节点汇总抽样信息，建立数据分布的直方图，预测数据分布总体特征；S4：根据数据分布情况，将数据划分为多个分区，分区数为所有Executor总核数的整数倍，分区过程中对大型Key进行拆分；S5：计算Executor的性能因子，每个数据分区对应一个Executor任务，将任务按照贪心策略分配给性能因子最高的Executor；S6：Executor的权重根据其负载和资源利用率动态调整，重复步骤S5直到任务分配完毕。还包括对应装置。

技术领域

本发明属于在线集群资源调度技术领域，涉及一种解决Spark数据倾斜问题的负载均衡方法及装置。

背景技术

学术界和工业界广泛采用大规模的内存计算平台，处理来自不同应用程序和数据源的大量数据。这些平台通过在内存中缓存中间应用程序数据，并利用更强大、更灵活的基于有向无环图(DAG)的任务调度机制，大大减少磁盘I/O的次数。同时，基于DAG的编程范式为用户提供了表达应用程序需求的灵活性，然而，复杂的任务调度使用户识别应用程序瓶颈以及性能调优带来了巨大挑战。

Spark作为当今流行的内存计算平台，以其先进的设计理念，迅速受到学术界和工业界的追捧。Spark平台的计算效率胜过广泛使用的MapReduce的开源实现Hadoop平台，官方的测试结果表明，当数据从磁盘中读取时，Spark的计算效率是Hadoop MapReduce的10倍以上；当数据从内存中读取时，Spark的计算效率是Hadoop MapReduce的100倍。Spark通过弹性分布式数据集(RDD)设计思想及管道流计算方式，优化了应用程序的执行逻辑。当大数据应用遇到行动算子才会生成一个Spark作业(Job)，而一个作业由一系列阶段组成。按照RDD的宽依赖与窄依赖关系，分为两种类型的阶段：Map阶段和Reduce阶段，如图1所示。在Map阶段中，从节点执行原始问题的部分输入数据，当执行完子问题后将结果写入内存或磁盘；在Reduce阶段中，各任务从相应节点拉取计算结果，重新组成原始问题的输出。这种并行计算模式，使得Spark能够通过集群方式，高效地处理大数据任务。

然而，在Spark的执行过程中，由于输入数据分布的不均衡以及Spark默认分区算法分配的不均衡，会出现数据倾斜问题；当发生数据倾斜时，部分任务的执行时间会明显多于其他任务，这一现象在Reduce阶段中尤其明显。由于同一阶段的任务具有同步障碍，只有在当前Stage中运行最慢的任务执行完毕时，才能开始后续阶段中任务的执行，因此，当出现数据倾斜时，会增加整个作业的总完工时间，从而降低程序执行效率，进而增加系统总能耗。

现有的Spark平台中，为了防止Straggler型任务，采用了与Hadoop MapReduce类似的推测执行机制。为了最大化系统性能，理想情况下每个任务的执行时间应大致相同。因原始输入数据的不均衡分布等原因造成任务执行时间差异巨大时，Spark检测到部分任务为Straggler型任务，会尝试在其余空闲节点以相同输入数据启动相同任务，将优先完成的任务的计算结果作为最终结果。当集群由于硬件老化、软件错误配置等原因造成部分任务运行缓慢时，Spark的推测执行机制能有效地减少作业的总完工时间。然而当产生数据倾斜的原因是由于其输入数据分布的不均衡时，Spark的推测执行机制就无能为力了。这是因为输入数据相同的任务在不同机器上重新执行会导致相同的执行时间，而冗余任务占用了集群部分资源，最终将导致整个作业的总完工时间增加。

发明内容

有鉴于此，本发明的一方面，提供一种解决Spark数据倾斜问题的负载均衡方法，该方法能够减轻任务的数据倾斜程度，加快任务执行速度。

为达到上述目的，本发明提供如下技术方案：

一种解决Spark数据倾斜问题的负载均衡方法，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院，未经中国科学院重庆绿色智能技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810374429.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于FPGA可重构技术的资源管理方法
下一篇：基于有序集合的数据重发方法、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种解决Spark数据倾斜问题的负载均衡方法及装置有效

专利文献下载