[发明专利]一种解决Spark数据倾斜问题的负载均衡方法及装置有效

申请号：	201810374429.5	申请日：	2018-04-24
公开（公告）号：	CN108572873B	公开（公告）日：	2021-08-24
发明（设计）人：	田文洪;黄超杰;王金;尚明生	申请（专利权）人：	中国科学院重庆绿色智能技术研究院
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400714 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种解决 spark 数据倾斜问题负载均衡方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种解决Spark数据倾斜问题的负载均衡方法，其特征在于：包括：

S1：监测计算节点的平均CPU利用率、内存利用率，SparkExecutor进程启动后，初始化Executor的权重信息；

S2：每一个计算节点根据预设抽样比例对本地中间数据进行抽样，然后计算节点将本地抽样信息通过消息通信发送给Master节点；

S3：Master节点汇总所有计算节点的抽样信息，然后根据预设抽样比例，建立数据分布的直方图，预测数据分布的总体特征；

S4：根据数据分布情况，将数据划分为多个分区，分区数为所有Executor总核数的整数倍，分区过程中对大型Key进行拆分；

S5：计算Executor的性能因子，每一个数据分区对应为一个Executor任务，然后将任务按照贪心策略分配给性能因子最高的Executor；

S6：在整个过程中，Executor的权重根据其负载和资源利用率动态调整，重复步骤S5直到任务分配完毕；Executor的权重调整过程为：

初始化每个Executor的计算能力计数值Capability_i以及监测次数值Count_i；

计算每个Executor的CPU利用率CU_i以及内存利用率MU_i，如果Executor的CPU利用率CU_i和内存利用率MU_i都没有超过其对应的CPU利用率上界CU_upperbound和内存利用率上界MU_upperbound，则对其计算能力计数值Capability_i以及监测次数值Count_i都增加1，否则只增加监测次数值Count_i；

当监测次数值Count_i到达设置的调整周期T 时，正式开始对Executor的权重进行调整，如果计算能力计数值Capability_i大于α×T，就增加Executor的权重，如果计算能力计数值Capability_i小于β×T，就减少Executor的权重，其中，α和β为预设的调节因子；

每次权重调整完毕时都将计算能力计数值Capability_i以及监测次数值Count_i重新设置为0，重复该过程直到任务完成。

2.根据权利要求1所述的解决Spark数据倾斜问题的负载均衡方法，其特征在于：在步骤S1中，Executor的权重初始值

W_i＝Speed_cpu×(1-R_cpu)×(1-R_mem)，

其中，Speed_cpu为节点CPU的主频大小，R_cpu表示为节点的CPU平均利用率，R_mem表示为节点的内存利用率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院，未经中国科学院重庆绿色智能技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810374429.5/1.html，转载请声明来源钻瓜专利网。