[发明专利]一种基于映射聚合的分布式计算作业的实现方法及装置有效
| 申请号: | 201410272772.0 | 申请日: | 2014-06-18 |
| 公开(公告)号: | CN105204920B | 公开(公告)日: | 2019-07-23 |
| 发明(设计)人: | 路璐;梁迎辉;徐常亮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F9/46 | 分类号: | G06F9/46 |
| 代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 映射 聚合 分布式 计算 作业 实现 方法 装置 | ||
一种基于映射聚合的分布式计算的实现方法和装置;所述实现方法至少包括两个映射计算任务;其中,还包括至少一个连接计算任务;所述连接计算任务包括如下步骤:接收来自分布式计算作业的至少两个映射计算任务的输出数据,作为连接计算任务的输入;对所述接收的输入数据执行连接运算;将所述连接运算的结果格式化为输出文件格式输出或存储至分布式文件系统中。本申请的方法使得在分布式计算平台的关系运算具有简单、灵活的特点。
技术领域
本申请涉及分布式计算系统,具体涉及一种基于映射聚合的分布式计算作业的实现方法及装置。
背景技术
随着互联网的发展,人类正式进入了信息爆炸时期的。海量的信息在很多应用都会出现,比如一些社交网络应用中记录用户行为日志通常都是以GB、TB或PB为单位的,有的情况下数据量甚至更高。常规的单机计算模式已经不能支撑如此巨大的数据量。
在传统的数据计算中,在一个机器上对数据进行计算对于机器当前的配置而言是完全可以支撑的。例如,常见的服务器内存是100G,把所有计算数据都缓存进内存进行科学计算是可以实现的。但是,对于一些应用的用户日志是以TB为单位的数据的情形,这些数据是不可能一次性的全部缓存进内存进行计算的;而即使可以对服务器的内存进行扩充,但是对硬件的要求非常高,运算耗时也非常长,也即运算代价是非常大的。此时一种可行的方案是通过一定的运算机制把计算任务分担到多台机器上,让每台机器都承担一部分的计算和数据存储的任务。这就降低了对单机的配置要求,可以使用普通的机器进行科学计算。也就是说,计算必须以分布式的把巨大的计算任务分成小的单机可以承受的计算任务。
但是,分布式计算的开发以及维护复杂而多变,需要考虑的问题非常多,诸如,分布式计算时数据的拆分与分配,计算的合并,计算节点错误的处理,计算过程中的通信等。上述的开发工作,在每次计算时都需要开发人员从头统筹考虑,这对开发人员的要求是非常高的。基于此,分布式计算框架应运而生,开发人员通过分布式框架将计算的细节进行封装,并提供相应的接口,后续开发人员仅仅需要考虑与现有框架的匹配,在计算框架的架构下进行任务处理即可,无需理会分布式计算过程中各种问题和计算异常问题。
一种典型的分布式计算框架为map(映射)-reduce(聚合)分布式计算框架(也称为计算模型)。map-reduce分布式计算框架的基本原理如下:在map-reduce计算框架中,在接收到任务之后,首先将一次任务分解成若干计算单元,每一次计算单元请求,被称为作业。为了完成这个作业,它进行两步走的战略,首先是将其拆分成若干个map任务,分配到不同的机器上去执行,每一个map任务拿输入文件的一部分作为自己的输入,经过一些计算,生成某种格式的中间文件,这种格式,与最终所需的文件格式完全一致,但是仅仅包含一部分数据。因此,等到所有map任务完成后,它会进入下一个步骤,用以合并这些中间文件获得最后的输出文件。此时,系统会生成若干个reduce任务,同样也是分配到不同的机器去执行,它的目标,就是将若干个map任务生成的中间文件为汇总到最后的输出文件中去。当然,这个汇总不总会像1+1=2那么直接了当,这也就是reduce任务的价值所在。经过如上步骤,最终,作业完成,所需的目标文件生成。整个算法的关键,就在于增加了一个中间文件生成的流程,大大提高了灵活性,使其分布式扩展性得到了保证。
然而,采用上述的map-reduce框架实现关系运算有很大的局限性。一些复杂关系运算需要多个map-reduce作业配合才能完成,这使得运算过程冗长复杂。而一些只需要一级任务完成的简单关系运算也必须严格遵守map-reduce计算框架。此外,map-reduce计算框架的接口太过简单,只能完成两级任务结构,而一些功能需要多个任务才能实现,上述这些局限性对关系运算实现的灵活性和性能产生了很大的影响。
发明内容
本申请提供一种基于映射聚合的分布式计算的实现方法,以解决现有计算结构框架中存在的上述问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410272772.0/2.html,转载请声明来源钻瓜专利网。





