[发明专利]一种基于数据持久化的Spark平台成本优化方法有效
申请号: | 201810346476.9 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108628682B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 滕飞;宁尚明;李天瑞;杜圣东 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06Q10/04 |
代理公司: | 成都盈信专利代理事务所(普通合伙) 51245 | 代理人: | 崔建中 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 持久 spark 平台 成本 优化 方法 | ||
本发明公开了一种基于数据持久化的Spark平台成本优化方法,包括构建基准成本率模型,构建目标应用程序的Attention‑DAG图即注意力‑有向无环图,结合Spark Checkpoint特性构建成本优化方案,根据成本优化方案对目标应用程序进行同环境配置下的执行等步骤。本发明的积极效果是:(1)提出一种广义分布式云计算环境下的基准成本率模型。对于具有不同工作特点的分布式计算框架来说,该基准成本率模型能够为评价优化算法的效果提供一种统一量纲的量化指标。(2)提出了一种基于数据持久化的Spark平台成本优化方法。该方法可作为一种成本优化的方法论,能够广泛用于任意具有持久化机制的系统或框架中,其核心思想是寻求计算成本与存储成本的平衡。
技术领域
本发明属于云计算领域,尤指一种基于数据持久化(persist)的Spark平台成本优化方法。
背景技术
分布式云平台资源成本的优化问题一直是各大云服务提供商重点关注的热点话题之一,因为尽可能地降低租户的租赁成本是提升各大云服务提供商竞争力的有效途径,同时也进一步实现云端资源利用率的最大化。
近些年,以基于内存迭代为特点的分布式计算框架Spark逐渐夺得工业界及学术界的青睐。在工业领域,Spark的成功应用案例已不计其数,例如腾讯广点通以及Yahoo的Audience Expansion都是Spark较早的应用成果;而在学术界,研究人员使用Spark快速处理一些较为庞大的数据,例如天文数据等。随着Spark版本的不断更新,其计算效率已不再是人们所关注的问题,庞大的生产集群逐渐产生昂贵的运维费用,而云端资源的不合理分配使得公司的成本问题愈加突显,因此,云端分布式计算框架在计算过程中的成本优化问题是当下各大IT公司亟待解决的难题之一。
以广义云端资源优化问题为研究背景的成果已有很多,同时近两年也逐渐涌现出一些针对特定分布式计算框架的资源优化成果。
1)彭舰,李亮亮,黎红友.一种混合云环境中动态多工作流调度执行的费用优化策略,CN107292419A[P].2017.
提出一种在混合云环境下动态多工作流调度的费用优化方法。该方法采用启发式调度算法为工作流分配私有云资源,并结合使用多约束的工作流分割思想,将原始流分解为子工作流,并分别调度到合适的公有云中执行,一定程度上提高混合云场景下的资源利用率。
2)王国路,徐俊刚,刘仁峰.一种Spark平台性能自动优化方法,CN105868019A[P].2016.
该发明提出一种Spark平台的性能自动优化方法。根据Spark的执行原理进行性能建模,通过获取历史Spark运行时的性能数据来估计Spark性能模型的参数,在有限参数空间中选出最优性能参数组合。该方法有助于快速完成对Spark特定应用程序的性能优化。
通过近两年的相关专利情况来看,无论是广义云平台或是特定分布式计算框架,其研究成果大多集中在性能优化或是资源调度优化。而在海量数据处理的背景下,除了关注分布式计算框架的性能优化外,如何降低整个应用程序的资源消耗成本,同样是是当下人们关注的焦点问题之一。
云端数据的状态有两种:计算或是存储。对于当下集群按需收费的模式,且计算资源单价远高于存储资源单价,因此,可以在平衡两种数据状态间找到合适的策略以降低整个作业的资源消耗成本。这些基准成本由CPU利用率、磁盘消耗、网络传输消耗以及内存占用所组成。因此,对于云计算环境中资源消耗的成本问题,需要在上述四个因素中找到权衡。
发明内容
鉴于当下云计算资源按需收费,且计算资源单价远高于存储的现状,本发明的目的是在平衡两种数据状态间找到合适的策略以降低整个作业的资源消耗成本。
实现本发明目的的技术方案如下:
一种基于数据持久化的Spark平台成本优化方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810346476.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多用户环境下流式数据处理方法
- 下一篇:数据传输方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置