[发明专利]MapReduce应用的相关参数的配置方法和装置在审
| 申请号: | 201410373376.7 | 申请日: | 2014-07-31 |
| 公开(公告)号: | CN105302536A | 公开(公告)日: | 2016-02-03 |
| 发明(设计)人: | 邹嘉;史巨伟;郑勇;王晨;刘杰 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F9/44 | 分类号: | G06F9/44 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;陈颖 |
| 地址: | 美国纽*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | mapreduce 应用 相关 参数 配置 方法 装置 | ||
技术领域
本发明涉及分布式文件系统,更具体地,涉及基于分布式文件系统的MapReduce应用的相关参数的配置方法和装置。
背景技术
分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。MapReduce是Google公司提出的一种用于大规模并行编程的软件架构。由于MapReduce架构可以实现大规模数据集(大于1TB)的并行运算,并通过把对数据集的大规模操作分发给网络上的多个节点进行并行运算来实现伸缩性,因此被分布式文件系统广泛应用。概念“Map(映射)”和“Reduce(化简)”及其主要思想,都是从函数式编程语言借来的。当前的MapReduce中间件实现要求应用开发者指定一个Map(映射)函数,用来把一组键值对映射成一些新的键值对(key-valuepair),称作中间键值对;此外还要求应用开发者指定一个Reduce(化简)函数,用来对Map函数输出的中间键值对进行进一步处理。
分布式文件系统需要将划分的文件块存储在多个计算节点上,并且需要将每个文件块复制为多个副本保存在不同的计算节点上,由此,对多个计算节点的文件块进行读写操作时就不可避免地产生了文件传输的网络开销以及尽量对本地节点的数据块进行读写操作的本地化需求。对于现有的分布式文件系统,MapReduce作业的相关参数都是由系统管理员按经验配置,但是随着作业、数据和集群特点的变化,一套通用的手动配置不能让系统资源利用率达到最优。
因此,需要一种有效地降低文件传输的网络开销、尽可能实现本地化处理的MapReduce作业的相关参数的配置,减少管理员配置负担的同时,有效地增加系统资源利用率。
发明内容
根据本发明的一个方面,提供了一种基于分布式文件系统的MapReduce应用的相关参数的配置方法,包括:接收第一MapReduce作业的处理请求;获取历史MapReduce作业的作业特征属性;从所述历史MapReduce作业的作业特征属性中查找到与所述第一MapReduce作业相关的第二MapReduce作业的作业特征属性;根据所述第二MapReduce作业的作业特征属性配置所述第一MapReduce作业的相关参数。
根据本发明的另一个方面,提供了一种基于分布式文件系统的MapReduce应用的相关参数的配置装置,包括:接收模块,被配置为接收第一MapReduce作业的处理请求;第一获取模块,被配置为获取历史MapReduce作业的作业特征属性;第一查找模块,被配置为从所述历史MapReduce作业的作业特征属性中查找到与所述第一MapReduce作业相关的第二MapReduce作业的作业特征属性;第一配置模块,被配置为根据所述第二MapReduce作业的作业特征属性配置所述第一MapReduce作业的相关参数。
根据本发明实施例的MapReduce应用的相关参数的配置方法和装置,能够有效地降低文件传输的网络开销、尽可能实现本地化处理,减少管理员配置负担的同时,有效地增加系统资源利用率。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
图2示出根据本发明实施例的基于分布式文件系统的MapReduce应用的配置参数的配置方法。
图3示出根据本发明的实施例的基于分布式文件系统的MapReduce应用的相关参数的配置装置300。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410373376.7/2.html,转载请声明来源钻瓜专利网。





