[发明专利]一种Spark平台性能自动优化方法有效

专利信息
申请号: 201610068611.9 申请日: 2016-02-01
公开(公告)号: CN105868019B 公开(公告)日: 2019-05-21
发明(设计)人: 王国路;徐俊刚;刘仁峰 申请(专利权)人: 中国科学院大学
主分类号: G06F9/50 分类号: G06F9/50;G06Q10/04
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 司立彬
地址: 100049 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种Spark平台性能自动优化方法。本方法为:1)根据Spark平台的执行机制创建一Spark应用性能模型;2)针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;3)将采集的性能数据输入Spark应用性能模型,得到运行该Spark应用时Spark应用性能模型中各参数的取值;4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型,计算Spark平台在不同配置参数组合时的性能(应用总执行时间),然后输出Spark平台性能最优时的配置参数组合。本发明具有低门槛、易于扩展、成本低和效率高等优点。
搜索关键词: 一种 spark 平台 性能 自动 优化 方法
【主权项】:
1.一种Spark平台性能自动优化方法,其步骤为:1)根据Spark平台的执行机制创建一Spark应用性能模型;其中,Spark应用性能模型为:Application={Jobi|0<=i<=M},Jobi={Stagex,s,Stagex,p|0<=x<=N};M为Spark应用中的作业数,一个作业对应着一个RDD的Action操作;N为第i个作业Jobi中所包含的根据宽依赖所划分的阶段Stage数;Stagex,s表示第x个阶段的可串行阶段;Stagex,p表示第x个阶段的可并行阶段;每一阶段包含一组任务Task集,Taski,j表示第i个阶段Stagei中的第j个任务,其数目K由RDD的分区Partition决定,其中InputDataSize为输入数据大小,BlockSize为HDFS块Block的大小;作业执行时间Startup表示启动阶段的准备时间,Cleanup表示最后清理阶段的时间,StageTimes(i)表示第i个可串行阶段Stage的执行时间,StageTimep(j)表示第j个可并行阶段Stage的执行时间;阶段Stage的执行时间P代表该Spark平台的CPU核数,Kc表示在CPU核c上串行执行的任务Task数,TaskTimec,i代表在CPU核c上第i个任务Task的执行时间;每一任务Task的执行时间TaskTime=TUnCompress+TDeserialization+TRun+TSerialization+TCompress,TUnCompress表示解压缩时间,TDeserialization表示反序列化时间,TRun表示任务Task在CPU上执行时间,TSerialization表示序列化时间,TCompress表示压缩时间;2)针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;3)将采集的性能数据输入Spark应用性能模型,得到运行该Spark应用时Spark应用性能模型中各参数的取值;4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型,计算Spark平台在不同配置参数组合时的性能,然后输出Spark平台性能最优时的配置参数组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大学,未经中国科学院大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610068611.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top