[发明专利]一种针对非易失性内存的Shuffle方法有效

专利信息
申请号: 201710532420.8 申请日: 2017-07-03
公开(公告)号: CN107220069B 公开(公告)日: 2020-06-05
发明(设计)人: 潘锋烽;熊劲 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F8/30 分类号: G06F8/30
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 非易失性 内存 shuffle 方法
【说明书】:

发明涉及一种针对非易失性内存的Shuffle方法,包括以下步骤:利用分区ID将Map任务的输出数据分别写入持久化缓冲区;拉取Reduce任务对应的所述持久化缓冲区中的数据。

技术领域

本发明涉及大数据处理技术领域,特别涉及一种针对非易失性内存的Shuffle方法。

背景技术

随着科学技术的发展,当今世界已进入大数据时代,MapReduce是当下流行的一种用于大规模数据并行运算的编程模型,如何优化MapReduce的性能一直是业界热点。

Shuffle是MapReduce框架中,介于Map阶段和Reduce阶段之间的一个特定的阶段,图1是MapReduce流程示意图,如图1所示,Shuffle是指当Map的输出结果要被Reduce使用时,输出结果按key哈希,并且分发到每一个Reduce上的过程,其中,Shuffle涉及了磁盘的读写和网络的传输,因此Shuffle性能的高低直接影响到了整个程序的运行效率。

现有技术中,针对Shuffle阶段的优化主要有以下方法:

Themis发表在Proceedings of the 3rd ACM Symposium on Cloud Computing(SoCC),2012上的文章,提出在Shuffle阶段使用动态内存分配策略对该过程中的数据进行存储,即作业在处理数据的过程中,数据从磁盘的读写次数只有两次,其余过程都不会与磁盘交互;SpongeFiles发表在Proceedings of the 2014 ACM SIGMOD internationalconference on Management of data上的文章,提出共享Task中未使用的内存空间,以上两种方法仅通过内存进行加速,对内存性能要求较高;

另外,Sailfish发表在Proceedings of the 3rd ACM Symposium on CloudComputing(SoCC),2012上的文章,提出在写Shuffle数据时,聚集每个Map Task相对应的分区的数据,利用分布式文件系统来存储相应的数据;Hadoop-A发表在Proceedings of the2011 International Conference for High Performance Computing,Networking,Storage and Analysis上的文章,提出利用高速网络(RDMA)的特性,使用Network-Levitated Merge算法来执行Shuffle阶段,但以上两种方法的缺陷在于过于依赖网络性能,并且采用文件系统的方式进行数据的存取的时间开销较大。

因此,目前需要一种时间开销小且内存利用率高的Shuffle优化方法。

发明内容

本发明的目的是提供一种针对非易失性内存的Shuffle方法,该方法能够克服上述现有技术的缺陷,具体包括以下步骤:

步骤1)、利用分区ID将Map任务的输出数据分别写入持久化缓冲区;

步骤2)、拉取Reduce任务对应的所述持久化缓冲区中的数据。

优选的,所述步骤1)中,每个Map任务的每个分区ID分别对应一个私有持久化缓冲区。

优选的,所述步骤1)进一步包括:在数据写入时,判断对应的所述私有持久化缓冲区是否存在;如不存在,申请新的所述私有持久化缓冲区;否则执行数据写入当前私有持久化缓冲区。

优选的,利用所述私有化缓冲区与分区ID之间的关联判断所述私有持久化缓冲区是否存在。

优选的,所述步骤1)进一步包括:在执行数据写入所述当前私有持久化缓冲区时,判断所述当前私有缓冲区是否满足数据大小,如满足,则执行数据写入,否则申请新的所述私有持久化缓冲区。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710532420.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top