[发明专利]Hadoop同构集群下的资源参数优化方法有效
申请号: | 201410171929.0 | 申请日: | 2014-04-25 |
公开(公告)号: | CN103942108B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 陈兴蜀;曾婉琳;罗永刚;王文贤 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 成都信博专利代理有限责任公司51200 | 代理人: | 卓仲阳 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hadoop 同构 集群 资源 参数 优化 方法 | ||
技术领域
本发明涉及Hadoop集群性能优化技术领域,具体是一种Hadoop同构集群下的资源参数优化方法。
背景技术
近年来,随着互联网的普及和Web(网络)技术的飞速发展,全球数据呈现爆炸式增长,使得大数据处理成为一个新的研究热点。Hadoop是由Apache基金会所开发的一个基于MapReduce(一种编程模型)编程模型的开源框架,在web搜索、数据挖掘以及科学计算等大规模数据处理方面得到广泛的应用。目前Facebook(一个社交网络服务网站)、Amazon(亚马逊)等著名公司都在使用Hadoop进行大规模数据处理。
对于一个典型的MapReduce作业,一般包括3个阶段:Map(映射)、copy(复制)和Reduce(规约)。在作业提交后,默认情况下输入文件将被分成64MB(Megabyte,兆字节,简称“兆”)大小的分片进行处理。在Map阶段,主要负责对每个块进行处理,产生键值对并存放到本地文件中。在copy阶段,主要负责将Map阶段产生的键值对传递给Reduce,作为输入。在Reduce阶段,会调用自定义的函数来处理这些键值对,并产生输出结果。具体执行过程由Map任务和Reduce任务完成。
随着Hadoop的广泛应用,针对Hadoop集群的性能优化也成为了一个研究热点。现在针对Hadoop的性能优化的主要有两个方面:一是对Hadoop作业调优,包括从应用程序角度和Hadoop参数调整角度来达到优化Hadoop的集群性能的目的;二是对Hadoop集群的资源调优,主要通过修改Hadoop作业的调度算法来达到优化Hadoop的集群性能的目的。
如何在优化Hadoop的资源利用率的同时提高Hadoop的作业执行效率,是本发明主要解决的问题。
发明内容
本发明的目的是提供一种对Hadoop资源参数的调整方法,以提高资源利用率和hadoop作业的运行效率,从而提高Hadoop的集群性能。
实现本发明目的的技术方案如下:一种Hadoop同构集群下的资源参数优化方法,包括步骤一:建立Hadoop同构集群的作业特征库:任选一种以上典型作业,获取典型作业的资源占用特征F、MAX_REDUCERS最优取值和MAX_MAPPERS最优取值,将其加入作业特征库;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410171929.0/2.html,转载请声明来源钻瓜专利网。