[发明专利]一种Hadoop系统优化方法有效
申请号: | 201611148198.3 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106599184B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 陈旺虎;马生俊;俞茂义;李金溶;郏文博 | 申请(专利权)人: | 西北师范大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F3/06;G06F11/14 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 曹玉琳 |
地址: | 730070 *** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 系统 优化 方法 | ||
本发明涉及大数据与云计算领域,尤其涉及一种Hadoop系统优化方法。其中,对HDFS数据分布存储阶段的优化包括:选择DataNode;对选出的DataNode排序;采用同向增量的轮循方法放置数据。对MapReduce数据并行计算阶段的优化包括:生成执行队列Q;执行R0备份;更新执行队列Q;执行R1备份;更新执行队列Q;执行R2备份;更新执行队列Q;针对性执行。本发明采用自适应的轮循放置策略,可以将数据基本均匀地放置在DataNode,防止出现节点负载不平衡等问题。同时将所有的map任务都在本机执行,很大程度上减少了数据的网络传输,减少了map任务对网络传输的依赖,极大地避免了网络延迟带给应用的瓶颈。
技术领域
本发明涉及大数据与云计算领域,尤其涉及一种Hadoop系统优化方法。
背景技术
Hadoop以其可靠、高效、可伸缩的数据处理方式,成为目前比较受用户青睐的分布式系统架构。Hadoop框架最核心的设计是HDFS(Hadoop分布式文件系统)和MapReduce,HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。现有的Hadoop框架中HDFS默认采用随机的数据放置,这种方式下数据放置不均匀,而且由于没有兼顾节点负载(计算负载和存储负载)导致负载不平衡。另一方面,在MapReduce并行计算时,某些节点处理任务所需的数据不在本地,需要从其他节点网络传输过来,尤其当数据量非常大时,对网络传输的需求会巨大,无疑地,网络传输成为发展的瓶颈。这些问题严重影响了Hadoop框架的执行效率。
发明内容
为解决上述问题,本发明针对Hadoop框架中的HDFS数据分布存储和MapReduce数据并行计算两个过程进行了优化。
对于HDFS数据分布存储,提出了“自适应的数据轮循放置策略”,一方面轮循的数据放置可以解决在HDFS中数据放置不均匀的问题;另一方面自适应的数据放置即根据节点自身的能力(计算能力和存储能力)选择将较多的数据放置在能力较大的节点上,可以解决在HDFS中数据放置时出现节点负载不平衡甚至出现某些节点负载过重等问题。
对于MapReduce数据并行计算,提出了“基于数据的本机执行”的并行计算策略,尽可能将所有map任务在本机处理即几乎所有数据的读取都在本机磁盘执行,这样既可以减少对网络传输的依赖,又可以大幅度地提高应用效率。
本发明采用的具体方案如下:
一种Hadoop系统优化方法,包括对HDFS数据分布存储阶段的优化和对MapReduce数据并行计算阶段的优化;其中,对HDFS数据分布存储阶段的优化包括以下步骤:
步骤1.1、选择DataNode:根据Hadoop集群内每个DataNode的磁盘使用率选择具有存储能力的DataNode用于存储数据;
步骤1.2、对选出的DataNode排序:将已选择的DataNode根据其计算能力的大小降序排序;
步骤1.3、放置数据:按照步骤1.2产生的顺序采用同向增量的轮循方法,将所有Block的备份存储到选出的DataNode;
对MapReduce数据并行计算阶段的优化包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611148198.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档在线预览方法及系统
- 下一篇:基于HSV的图像相似度识别方法