[发明专利]基于异构Hadoop集群环境的数据块放置方法及系统在审

专利信息
申请号: 202010185518.2 申请日: 2020-03-17
公开(公告)号: CN113407620A 公开(公告)日: 2021-09-17
发明(设计)人: 宋莹;许家豪 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/27 分类号: G06F16/27
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国
地址: 100101 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hadoop 集群 环境 数据 放置 方法 系统
【说明书】:

发明提出一种基于异构Hadoop集群环境的数据块放置方法及系统,首先通过计算数据块各周期的访问频率,以此来衡量数据块的冷热程度,之后通过数据块热度的不同将数据块放置到不同的数据节点上,在放置过程中考虑其相关性问题,将具有相关性的数据块分散放置,不同时存储在同一个数据节点上,避免了在一个数据节点上多个数据块同时被访问,降低了数据节点的负载。通过本发明提出的放置策略,提高了集群的执行性能和资源的利用率。

技术领域

本发明涉及针对Hadoop集群中的数据块冷热程度提出一种提高集群性能的副本复制,属于分布式计算领域。

背景技术

随着互联网技术的不断发展,我们已经进入到了大数据的时代,所以对于大数据相关的技术应用应当更加地深入广泛。Hadoop是目前最流行的大数据开源框架,是一个能够离线并行处理海量数据的大数据平台,具有高可靠性、高可扩展性、高效性以及低成本、开源等特性,称为了许多互联网公司首选的海量数据处理方案。Hadoop主要包括Hadoop分布式文件系统(HDFS)和MapReduce分布式计算框架,虽然Hadoop发展至今已经非常成熟,但是有些方面存在不足需要改进和优化。

HDFS中存储着许多的文件,有大文件也有小文件(大文件居多),其中大文件由多个数据块组成,而小文件仅占一个数据块的一部分。通过用户对数据块的访问频率来衡量数据块的热度,访问频率越高的数据块其热度越高,这样一来就存在热点数据(访问频率高的数据)和冷门数据(访问频率低的数据)。对于热点数据,是用户们经常访问的数据,这就会带来两个问题:1)由于热点数据访问频率较高,可能同时被多个用户访问,增加了节点的负担;2)热点数据属于用户经常访问的数据,需要在响应时间上满足用户的体验。以上两个问题都是传统Hadoop所面临的难题。

传统Hadoop系统的设计是面向同构计算环境的,由一群配置相同的机器组成,每一个节点在同构集群下有相同的存储性能和磁盘容量,当数据写入HDFS时,数据会被分成许多同样大小的块,之后Hadoop会采用随机分布的方式平衡同等地将数据块负载到每一个节点上。但是目前运行Hadoop的集群常常是异构计算环境,且Hadoop中存储的数据热度不同,热数据经常被访问到且访问此数据的用户数量多,这就需要存储此类数据的节点有较高的存储性能,而冷数据则很少被访问甚至不被访问仅仅只需要被存储。所以针对数据的热度问题,传统Hadoop的同构集群就不具有高效性和实用性。

Hadoop默认的副本复制策略对于用户需求、存储性能和系统资源等方面存在一定的缺陷。在异构集群的环境下存在一些问题,例如系统资源利用率低下、节点负载不平衡、容错性不高、网络传输以及通信效负载甚至可能导致故障。

发明内容

针对现有技术的不足,本发明提出一种基于异构Hadoop集群环境的数据块放置方法,其中包括:

步骤1、根据数据块被访问的频率,将存储于异构集群环境中的数据块分为热点数据块、中热数据块、正常数据块和冷门数据块,根据异构集群环境中各数据节点的性能和预设的性能标准,将异构集群环境中数据节点按性能的不同进行分类;

步骤2、进行数据块相关性分析,将数据块各分类中具有相关性的数据块进行标记;

步骤3、执行数据块放置策略,根据数据块和数据节点的分类,将各数据块按照性能需求的不同放置到不同分类的数据节点上;

步骤4、执行数据块放置策略时判断当前数据块选择放置的数据节点中是否有与它具有相关性的其他数据块,若有则在此数据节点的分类中重新执行步骤3,选择其他数据节点进行放置;

步骤5、完成当前数据块的放置,再次执行步骤3,直到所有的数据节点完成放置。

所述的基于异构Hadoop集群环境的数据块放置方法,其中该步骤1包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010185518.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top