[发明专利]一种HDFS的存储结构优化方法有效

专利信息
申请号: 201711337752.7 申请日: 2017-12-14
公开(公告)号: CN107944041B 公开(公告)日: 2021-11-09
发明(设计)人: 何鑫 申请(专利权)人: 成都雅骏新能源汽车科技股份有限公司
主分类号: G06F16/18 分类号: G06F16/18;G06F16/13;G06F11/14
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 刘世权
地址: 610000 四川省成都市天府新区新*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 hdfs 存储 结构 优化 方法
【说明书】:

发明公开了一种HDFS存储结构的优化方法,具体实现步骤如下:第一步,分别对数据文件分割的数据块进行指纹计算;第二步,利用Hash函数完成指纹匹配,若出现相同值,则判定该块重复;第三步,重复块存储对应的索引,新数据块进行存储和更新指纹库流程;第四步,更新文件的元数据信息;第五步,通过CubeHash函数计算Hash值,并引入关键词提取策略、特征向量权值计算、余弦系数法进行数据的相同和相似性判断;第六步,根据标签删除重复数据。本发明设计合理,实现了标签化去重,使得HDFS的存储结构得到优化。

技术领域

本发明涉及一种HDFS存储结构的优化方法。

背景技术

HDFS是在GFS分布式文件系统的基础上开源实现的,因此,HDFS具有GFS的特性。GFS是由Google开发的,它具有极强的容错能力、优异的扩展性,被广泛应用于高效存储和读取海量分布式数据的应用当中。通过深入地剖析GFS的特性和原理能够从本质上对HDFS进行理解。通常情况下,文件系统的集群由一个Master附带多个Chunkserver组成,并可以通过多个Client进行访问。当Client发出存储文件请求时,首先将文件分割成大小固定的Chunk块;然后,Master给每个Chunk块分配唯一的标识Chunk Unicode;最终,Chunk块被存储在本地磁盘上,并依据对应的Chunk Unicode和字节范围实现Chunkserver的读写操作。默认情况下,GFS会将每个Chunk块复制保存到3个Chunkserver上,以确保数据的稳定和安全,并且可以通过改变文件命名空间的设置完成不同的备份策略。图3展示了GFS架构运行的流程:其中,命名规则、访问控制、映射表等元数据信息保存在Master的内存或硬盘中。Master管理这些信息的同时,还通过心跳协议完成Chunk块的校验、备份、迁移等系统策略的实施。

现有技术介绍:

HDFS具有以下存储策略:

容错机制:HDFS默认为每个数据创建三个副本块,第一个副本设置在本地机架的节点上;第二个副本存放在另一个节点的第一个相同机架上;第三个放置在该节点的不同机架上。HDFS文件存储的过程中有两种常见的错误:一种是节点故障,另一种是数据损坏。

节点故障主要是指由网络分区导致的DataNode故障:DataNode定期向NameNode发送心跳消息,如果NameNode在规定时间内没有收到DataNode的消息,DataNode就会被认为是无序的,会被标记为死节点。由于死节点的存在,NameNode会不断检测到数据副本的不足,随即会启动复制机制。

数据损坏是指从DataNode读取的数据发生损坏现象:HDFS采用校验文件方式检测数据的完整性。当客户端创建文件时,新文件包含数据块的总和会被保存在校验文件的校验数中。客户端读取文件时,数据块数的总和将与校验文件中的校验数进行比对,若二者相同,则数据完整,否则将读取其他数据块进行复制补充。

平衡机制:HDFS的平衡指文件块良好地分布于集群的每个节点上。文件块的分布是一个动态过程,HDFS提供了平衡器工具以确保存储结果的平衡。

故障检查和自动快速恢复能力是HDFS的核心目标。心跳机制实现了故障节点的检测,通常使用这种机制验证节点的可靠性,以便在写入文件之前完成DataNode节点的过滤工作,从而将失效后的被动检测转换为使用前的主动筛选。机制的形式化描述如下:

(1)NameNode根据用户和数据字符的需要给出可靠阈值H;

(2)NameNode计算离客户端最近的机架;

(3)量化机架中所有节点的可靠性,将可靠性阈值小于H的节点删除;

(4)量化剩余节点的存储成本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都雅骏新能源汽车科技股份有限公司,未经成都雅骏新能源汽车科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711337752.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top