[发明专利]一种针对非易失性内存的Shuffle方法有效
| 申请号: | 201710532420.8 | 申请日: | 2017-07-03 |
| 公开(公告)号: | CN107220069B | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 潘锋烽;熊劲 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F8/30 | 分类号: | G06F8/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 非易失性 内存 shuffle 方法 | ||
本发明涉及一种针对非易失性内存的Shuffle方法,包括以下步骤:利用分区ID将Map任务的输出数据分别写入持久化缓冲区;拉取Reduce任务对应的所述持久化缓冲区中的数据。
技术领域
本发明涉及大数据处理技术领域,特别涉及一种针对非易失性内存的Shuffle方法。
背景技术
随着科学技术的发展,当今世界已进入大数据时代,MapReduce是当下流行的一种用于大规模数据并行运算的编程模型,如何优化MapReduce的性能一直是业界热点。
Shuffle是MapReduce框架中,介于Map阶段和Reduce阶段之间的一个特定的阶段,图1是MapReduce流程示意图,如图1所示,Shuffle是指当Map的输出结果要被Reduce使用时,输出结果按key哈希,并且分发到每一个Reduce上的过程,其中,Shuffle涉及了磁盘的读写和网络的传输,因此Shuffle性能的高低直接影响到了整个程序的运行效率。
现有技术中,针对Shuffle阶段的优化主要有以下方法:
Themis发表在Proceedings of the 3rd ACM Symposium on Cloud Computing(SoCC),2012上的文章,提出在Shuffle阶段使用动态内存分配策略对该过程中的数据进行存储,即作业在处理数据的过程中,数据从磁盘的读写次数只有两次,其余过程都不会与磁盘交互;SpongeFiles发表在Proceedings of the 2014 ACM SIGMOD internationalconference on Management of data上的文章,提出共享Task中未使用的内存空间,以上两种方法仅通过内存进行加速,对内存性能要求较高;
另外,Sailfish发表在Proceedings of the 3rd ACM Symposium on CloudComputing(SoCC),2012上的文章,提出在写Shuffle数据时,聚集每个Map Task相对应的分区的数据,利用分布式文件系统来存储相应的数据;Hadoop-A发表在Proceedings of the2011 International Conference for High Performance Computing,Networking,Storage and Analysis上的文章,提出利用高速网络(RDMA)的特性,使用Network-Levitated Merge算法来执行Shuffle阶段,但以上两种方法的缺陷在于过于依赖网络性能,并且采用文件系统的方式进行数据的存取的时间开销较大。
因此,目前需要一种时间开销小且内存利用率高的Shuffle优化方法。
发明内容
本发明的目的是提供一种针对非易失性内存的Shuffle方法,该方法能够克服上述现有技术的缺陷,具体包括以下步骤:
步骤1)、利用分区ID将Map任务的输出数据分别写入持久化缓冲区;
步骤2)、拉取Reduce任务对应的所述持久化缓冲区中的数据。
优选的,所述步骤1)中,每个Map任务的每个分区ID分别对应一个私有持久化缓冲区。
优选的,所述步骤1)进一步包括:在数据写入时,判断对应的所述私有持久化缓冲区是否存在;如不存在,申请新的所述私有持久化缓冲区;否则执行数据写入当前私有持久化缓冲区。
优选的,利用所述私有化缓冲区与分区ID之间的关联判断所述私有持久化缓冲区是否存在。
优选的,所述步骤1)进一步包括:在执行数据写入所述当前私有持久化缓冲区时,判断所述当前私有缓冲区是否满足数据大小,如满足,则执行数据写入,否则申请新的所述私有持久化缓冲区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710532420.8/2.html,转载请声明来源钻瓜专利网。





