[发明专利]一种基于动态容量的Spark内存替换方法在审
申请号: | 202210311966.1 | 申请日: | 2022-03-28 |
公开(公告)号: | CN114610657A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王进;张睿涵;张经宇;王磊;王静;王建新 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F12/123 | 分类号: | G06F12/123;G06F12/127 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 颜思文 |
地址: | 410114 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 容量 spark 内存 替换 方法 | ||
本申请公开的基于动态容量的Spark内存替换方法,包括:配置第一替换算法和第二替换算法;当有新的RDD需要存储时,根据内存紧张程度进行替换算法的选用;当触发第二替换算法时,将已有RDD分为有依赖计数和无依赖计数的两个表进行维护;随后获取已有RDD的权重大小;接着确认无依赖计数RDD表是否为空:若不为空,则在无依赖计数的RDD表中按权重从小到大将已有RDD逐个驱逐出内存,直到足够缓存新的RDD则停止;若为空,则遍历有依赖计数RDD表,以同样的方法驱逐RDD,直到空间足够容纳新的RDD。本方案能够在不同内存环境的条件下,更大限度的降低Spark在作业时的读写开销以及对性能的影响,提高缓存命中率,提升Spark的运行效率。
技术领域
本申请涉及大数据Spark计算引擎技术领域,更具体地说,尤其涉及一种基于动态容量的Spark内存替换方法。
背景技术
Apache Sprak是一种专为大规模数据处理而设计的快速通用的计算引擎,其拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark被广泛应用于数据挖掘与机器学习等需要迭代的MapReduce的算法中。在原始的Spark中,计算引擎会将数据文件储存在内存中用以降低该数据下次被使用时的读写开销。当内存空间不足以存储新的RDD(resilientdistributed dataset)数据文件时,Spark引擎会调用替换算法淘汰旧RDD,读入新RDD。当前Spark计算引擎常用的替换算法是LRU(least recently used,最近最少使用)该算法记录每一个RDD自上次被使用以来所经历的时间t,当需要淘汰一个RDD时,该算法会选择现有RDD中t值最大的,即最近最少使用的RDD予以淘汰,但是运用此方法存在Spark缓存命中率低、读写开销大的问题。
针对Spark缓存算法替换的问题,目前研究人员提供了最近最少/最频繁使用算法(LRFU,Least Recently/Frequently Used)、基于RDD分区的权重缓存替换算法,如WSCRP权重算法、LRC(Least Reference Count,最少依赖计数)算法等解决方案,上述方案用各自的方式提供了新的驱逐优先级计算方式,都分别在某些场景下对Spark基于LRU算法的缓存替换方案做出了改进,各自有独特的优势,都降低了Spark工作的读写负担。但是以上算法仍然存在各自的不足之处,导致在某些特定的场景下,算法产生的效果并不理想;例如LRFU,该算法是基于LRU算法的改进算法,本质上是在LRU算法的基础上增加曾经使用过的数据块信息,并赋予更近时间被使用过的数据块更大的权重,以判断该RDD在未来被使用的可能性;因此,要使得该算法可以相对准确的判断数据块被使用的可能性需要一定的迭代次数,在迭代次数较少或工作中大部分为线性作业的情况下,该算法容易将需要重复使用的数据块驱逐出内存,造成缓存命中率下降,影响Spark工作性能,并且其余算法也存在上述影响。可见,现有技术中的缓存替换方案在设计上仍然缺少对不同情境下的综合考虑,以及对应不同使用场景的优化能力,所以Spark在工作中读写开销性能仍有优化空间。
因此,如何提供一种基于动态容量的Spark内存替换方法,其能够在不同内存环境的条件下,更大限度的降低Spark在进行作业时的读写开销以及对性能的影响,提高缓存命中率,提升Spark的运行效率,已经成为本领域技术人员亟待解决的技术问题。
发明内容
为解决上述技术问题,本申请提供一种基于动态容量的Spark内存替换方法,其能够在不同内存环境的条件下,更大限度的降低Spark在进行作业时的读写开销以及对性能的影响。
本申请提供的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311966.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聚醚纳米组装粒子的制备方法
- 下一篇:封堵支架以及输送系统