[发明专利]基于异构Hadoop集群环境下的数据块副本放置方法有效

专利信息
申请号: 201810175672.4 申请日: 2018-03-02
公开(公告)号: CN108519856B 公开(公告)日: 2020-10-27
发明(设计)人: 吴奇石;刘洋;张晓阳;侯爱琴;王永强 申请(专利权)人: 西北大学
主分类号: G06F3/06 分类号: G06F3/06
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 李婷;周春霞
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hadoop 集群 环境 数据 副本 放置 方法
【说明书】:

发明公开一种基于异构Hadoop集群环境下的数据块副本放置方法,该方法对异构集群下的节点根据其性能参数进行分类,把得到的数据块热度预测结果,根据副本个数,依次放到各个节点上。本发明结合了多个因素来决定哪个数据块该放到哪个节点上,这样既提高了MapReduce性能,也减少了执行时间。

技术领域

本发明属于大数据分布式计算领域,涉及一种基于异构Hadoop集群环境下的数据块副本放置方法。

背景技术

在过去的十年来,Apache基金会研究的Hadoop平台已经成为最突出的处理大数据分析的开源框架。15年大多数IDC报告“Trends in Enterprise Hadoop Deployments”发现32%的公司已经应用Hadoop。另外,31%的公司计划在12个月内部署Hadoop。不仅在企业计算,Hadoop还在HPC(high performance computing)群体中获得稳步的动力。在众多的云计算产品中,Hadoop凭借其高可靠性、高可扩展性、高效性以及低成本、开源等特性,成为越来越多互联网公司海量数据首选解决方案,并已经将Hadoop投入到实际产业应用当中。Hadoop主要包括MapReduce分布式计算框架和HDFS分布式文件系统两个部分。Hadoop的框架还不是很成熟,有许多方面尚待优化和改进。其中,数据放置及如何存储管理便是困扰HDFS使用者已久的问题。

由于MapReduce“移动计算比移动数据更划算”的设计思想,数据本地化成为分布式存储的核心问题。然而,在异构环境下,数据要求执行一个task通常是非本地的,这个就影响了Hadoop性能。在一个Hadoop默认环境下,每一个节点在同构集群下有同样的执行能力和硬盘容量,当数据写入HDFS时,数据会被分成许多同样大小的块,Hadoop会同等地平衡分布块的负载到每一个节点上,对于同构集群具有高效性和实用性。但在异构环境下,执行节点和硬盘容量是不一样的。高执行能力的节点要比低执行能力的节点完成本地数据块的task快得多,所以对于异构集群可能会需要额外的资源对数据块进行移动,那么将会导致更高的额外花费以及降低Hadoop的性能。

Hadoop默认的数据放置策略对于同构集群来说对系统性能有很大益处,能使得各个节点的性能发挥到最佳。但这种静态的副本放置策略对于需要根据用户需求、系统资源、存储空间等做出策略上的变化时存在一定的缺陷。即对异构集群环境下的节点,会导致各种状况,比如系统源使用率低、节点负载不均衡、执行速率低、容错性不高、通信负载,甚至会导致节点崩溃。

发明内容

针对上述同构Hadoop集群下存在的缺陷和不足,本发明的目的在于,提供一种基于异构Hadoop集群环境下的数据块副本放置方法,该方法可以根据异构集群下性能各异的节点来存放数据块,达到提高集群的性能,还能减少MapReduce task的执行时间。

为了实现上述目的,本发明采用如下技术方案:

基于异构Hadoop集群环境下的数据块副本放置方法,Hadoop集群中包括M个节点,该方法用于将数据块的新增副本放置到节点上,包括以下步骤:

步骤1,在第n个时间周期Tn内,n为大于0的整数,对多个数据块采用基于灰度预测模型的预测方法进行热度预测,得到在该时间周期Tn内每个数据块的总访问率;

步骤2,识别第n个时间周期Tn内的需要新增副本的数据块;

步骤3,计算需要新增副本的每个数据块的新增副本数,并将该数据块复制多次,数据块的复制次数与新增副本数相同,得到多个新增副本;

步骤4,计算Hadoop集群中每个节点的性能分数,按照性能分数由高到低对节点进行排序,得到节点序列[B1,B2,…Bm,…BM],其中,Bm表示节点序列中的第m个节点,M表示节点总数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810175672.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top