[发明专利]一种基于MapReduce的任务调度方法有效
申请号: | 201310577071.3 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103631657B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 孟祥飞;吴楠;邓鹏飞;宗栋瑞;邓强 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 任务 调度 算法 | ||
技术领域
本发明涉及当前大数据领域中的一个非常重要的编程计算框架MapReduce中的任务调度方法,特别是涉及一种基于HDFS的动态副本管理方法。
技术背景
MapReduce作为一种处理大规模数据集的技术,最早由 Google 在 2007 年提出来,受到了学术界和产业界的广泛关注。目前,MapReduce 这种并行编程模型成为了各大 IT 厂商融合在云产品中的关键技术之一,并不断有开源产品投放到这个行业中,例如开源云系统Hadoop、Sector&Sphere 等。近年来,MapReduce 已经成为了云计算领域的主流技术,也成为了科研机构,开源组织以及互联网公司的研究热点,并被列入在 InfoWorld 推出的 2011 年十大新兴企业级技术之中。相信随着云计算观念逐渐普及,MapReduce 会获得更多的关注和更快的发展。MapReduce 的架构思想使得通过普通的 PC 集群就可以完成对千兆级别的海量数据的处理。在实际的应用中,通过 MapReduce 对海量数据进行分析处理并从数据挖掘等方面进行研究,可以获得较高效率,同时还兼顾了成本效益。当前,由于 MapReduce 具有开源和高性能突出优势,已被广泛应用到机器学习,数据挖掘、智能识别等领域。基于 MapReduce 的应用在互联网领域也已经越来越广泛。其中推动MapReduce 商业化的最主要的贡献者是 Yahoo!,Yahoo!构建了超过 4000+个节点的 MapReduce集群,提供了约为 1.5PB 的存储应用。而全球拥有 10 亿用户的著名社交网站 Facebook 为了处理其每日以TB 级增长的数据量,广泛使用了超过100个 MapReduce 集群来作为其哥斯拉级别的大数据的分析工具,主要用来处理 Web 事物流和数据挖掘。此外,EMR 产品是 Amazon架构在其 EC2 和 S3 上的分布式计算平台,以按流量收费的形式向用户提供计算服务。目前,市场上还有包括 Facebook Insights、IBM Platform MapReduce 等在内的多种 MapReduce 应用产品。在国内,众多互联网企业如百度、淘宝和腾讯也都是 MapReduce 应用的忠实粉丝。作为国内最大的搜索引擎百度搭建了超过 10 个集群来处理每日生成的 3PB 数据量,主要是应用于系统日志分析以及网页数据库的挖掘工作。在此值得一提的是电商巨头淘宝,淘宝的MapReduce 集群拥有 2800 多个节点,其总存储容量 50PB,日均作业数高达 15 万,主要用于包括用户消费行为、搜索习惯等多方面的检索分析,也为淘宝在 2012 年双十一的战场上交易额可以高达 191 亿元提供了关键技术支撑,做出了巨大贡献。在海量数据时代,互联网企业将 MapReduce 这种分布式计算模式应用到网络数据库挖掘,日志分析等方面,可以大大提升资源利用率同时为用户提供了更好的用户体验。
发明内容
本发明要解决的技术问题是:本发明提出一种基于MapReduce的任务调度方法,该方法是在分析蚁群方法和现有的MapReduce任务调度方法的基础上演化而来。可以克服现有调度方法存在的许多问题,有效的解决了本地性计算和小作业处理问题,同时兼顾了节点上的数据倾斜,从而均衡了节点上的任务分配,提高了集群平台的调度性能。
在大数据处理工程中,任务调度主要存在以下问题:
1) 本地性计算问题。本地计算指的是在任务计算过程中,应优先选择距离任务所需数据最近的计算节点。那么 Hadoop 中具体的实现方法是首先将存储用户提交数据的节点作为本地执行节点,如果该节点正在执行其他任务且没有空闲资源,则从该节点所在的同一 Rack 上选择其他节点。如果该 Rack 上的所有节点都不能满足当前任务执行的要求,那么 JobTracker就将任务重新分配给其他 Rack 上的节点。从上面的实现过程分析来看,本地性计算问题主要会涉及到任务的再次分配消耗 I/O带宽资源。而在大规模集群中,I/O 带宽是稀缺性资源,因此说,解决好本地性问题有利于减少网络带宽资源耗费,进而提高集群的吞吐率,对于提升集群性能具有重要意义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310577071.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:通过减压蒸馏制备烟草精油的方法
- 下一篇:一种喷浆机的玻璃清洁系统