[发明专利]一种Spark平台性能自动优化方法有效

申请号：	201610068611.9	申请日：	2016-02-01
公开（公告）号：	CN105868019B	公开（公告）日：	2019-05-21
发明（设计）人：	王国路;徐俊刚;刘仁峰	申请（专利权）人：	中国科学院大学
主分类号：	G06F9/50	分类号：	G06F9/50;G06Q10/04
代理公司：	北京君尚知识产权代理事务所(普通合伙) 11200	代理人：	司立彬
地址：	100049 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种Spark平台性能自动优化方法。本方法为：1)根据Spark平台的执行机制创建一Spark应用性能模型；2)针对一设定的Spark应用，选取该Spark应用的部分数据负载在该Spark平台上运行，采集Spark应用运行时的性能数据；3)将采集的性能数据输入Spark应用性能模型，得到运行该Spark应用时Spark应用性能模型中各参数的取值；4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型，计算Spark平台在不同配置参数组合时的性能(应用总执行时间)，然后输出Spark平台性能最优时的配置参数组合。本发明具有低门槛、易于扩展、成本低和效率高等优点。
搜索关键词：	一种 spark 平台性能自动优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种Spark平台性能自动优化方法，其步骤为：1)根据Spark平台的执行机制创建一Spark应用性能模型；其中，Spark应用性能模型为：Application＝{Job_i|0<＝i<＝M}，Job_i＝{Stage_x,s,Stage_x,p|0<＝x<＝N}；M为Spark应用中的作业数，一个作业对应着一个RDD的Action操作；N为第i个作业Job_i中所包含的根据宽依赖所划分的阶段Stage数；Stage_x,s表示第x个阶段的可串行阶段；Stage_x,p表示第x个阶段的可并行阶段；每一阶段包含一组任务Task集，Task_i,j表示第i个阶段Stage_i中的第j个任务，其数目K由RDD的分区Partition决定，其中InputDataSize为输入数据大小，BlockSize为HDFS块Block的大小；作业执行时间Startup表示启动阶段的准备时间，Cleanup表示最后清理阶段的时间，StageTime_s(i)表示第i个可串行阶段Stage的执行时间，StageTime_p(j)表示第j个可并行阶段Stage的执行时间；阶段Stage的执行时间P代表该Spark平台的CPU核数，Kc表示在CPU核c上串行执行的任务Task数，TaskTime_c,i代表在CPU核c上第i个任务Task的执行时间；每一任务Task的执行时间TaskTime＝T_UnCompress+T_{Deserialization}+T_Run+T_{Serialization}+T_Compress，T_UnCompress表示解压缩时间，T_{Deserialization}表示反序列化时间，T_Run表示任务Task在CPU上执行时间，T_{Serialization}表示序列化时间，T_Compress表示压缩时间；2)针对一设定的Spark应用，选取该Spark应用的部分数据负载在该Spark平台上运行，采集Spark应用运行时的性能数据；3)将采集的性能数据输入Spark应用性能模型，得到运行该Spark应用时Spark应用性能模型中各参数的取值；4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型，计算Spark平台在不同配置参数组合时的性能，然后输出Spark平台性能最优时的配置参数组合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院大学，未经中国科学院大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610068611.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Spark平台性能自动优化方法有效

专利文献下载