[发明专利]一种Spark平台性能自动优化方法有效
申请号: | 201610068611.9 | 申请日: | 2016-02-01 |
公开(公告)号: | CN105868019B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 王国路;徐俊刚;刘仁峰 | 申请(专利权)人: | 中国科学院大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06Q10/04 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100049 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种Spark平台性能自动优化方法。本方法为:1)根据Spark平台的执行机制创建一Spark应用性能模型;2)针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;3)将采集的性能数据输入Spark应用性能模型,得到运行该Spark应用时Spark应用性能模型中各参数的取值;4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型,计算Spark平台在不同配置参数组合时的性能(应用总执行时间),然后输出Spark平台性能最优时的配置参数组合。本发明具有低门槛、易于扩展、成本低和效率高等优点。 | ||
搜索关键词: | 一种 spark 平台 性能 自动 优化 方法 | ||
【主权项】:
1.一种Spark平台性能自动优化方法,其步骤为:1)根据Spark平台的执行机制创建一Spark应用性能模型;其中,Spark应用性能模型为:Application={Jobi|0<=i<=M},Jobi={Stagex,s,Stagex,p|0<=x<=N};M为Spark应用中的作业数,一个作业对应着一个RDD的Action操作;N为第i个作业Jobi中所包含的根据宽依赖所划分的阶段Stage数;Stagex,s表示第x个阶段的可串行阶段;Stagex,p表示第x个阶段的可并行阶段;每一阶段包含一组任务Task集,Taski,j表示第i个阶段Stagei中的第j个任务,其数目K由RDD的分区Partition决定,其中
InputDataSize为输入数据大小,BlockSize为HDFS块Block的大小;作业执行时间
Startup表示启动阶段的准备时间,Cleanup表示最后清理阶段的时间,StageTimes(i)表示第i个可串行阶段Stage的执行时间,StageTimep(j)表示第j个可并行阶段Stage的执行时间;阶段Stage的执行时间
P代表该Spark平台的CPU核数,Kc表示在CPU核c上串行执行的任务Task数,TaskTimec,i代表在CPU核c上第i个任务Task的执行时间;每一任务Task的执行时间TaskTime=TUnCompress+TDeserialization+TRun+TSerialization+TCompress,TUnCompress表示解压缩时间,TDeserialization表示反序列化时间,TRun表示任务Task在CPU上执行时间,TSerialization表示序列化时间,TCompress表示压缩时间;2)针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;3)将采集的性能数据输入Spark应用性能模型,得到运行该Spark应用时Spark应用性能模型中各参数的取值;4)将步骤3)获得的性能模型各参数值赋给Spark应用性能模型,计算Spark平台在不同配置参数组合时的性能,然后输出Spark平台性能最优时的配置参数组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院大学,未经中国科学院大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610068611.9/,转载请声明来源钻瓜专利网。
- 上一篇:瓦斯气发动机空燃比自动调节系统
- 下一篇:一种发动机可变压缩比装置