[发明专利]一种HDFS的存储结构优化方法有效
| 申请号: | 201711337752.7 | 申请日: | 2017-12-14 |
| 公开(公告)号: | CN107944041B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 何鑫 | 申请(专利权)人: | 成都雅骏新能源汽车科技股份有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/13;G06F11/14 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘世权 |
| 地址: | 610000 四川省成都市天府新区新*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 hdfs 存储 结构 优化 方法 | ||
本发明公开了一种HDFS存储结构的优化方法,具体实现步骤如下:第一步,分别对数据文件分割的数据块进行指纹计算;第二步,利用Hash函数完成指纹匹配,若出现相同值,则判定该块重复;第三步,重复块存储对应的索引,新数据块进行存储和更新指纹库流程;第四步,更新文件的元数据信息;第五步,通过CubeHash函数计算Hash值,并引入关键词提取策略、特征向量权值计算、余弦系数法进行数据的相同和相似性判断;第六步,根据标签删除重复数据。本发明设计合理,实现了标签化去重,使得HDFS的存储结构得到优化。
技术领域
本发明涉及一种HDFS存储结构的优化方法。
背景技术
HDFS是在GFS分布式文件系统的基础上开源实现的,因此,HDFS具有GFS的特性。GFS是由Google开发的,它具有极强的容错能力、优异的扩展性,被广泛应用于高效存储和读取海量分布式数据的应用当中。通过深入地剖析GFS的特性和原理能够从本质上对HDFS进行理解。通常情况下,文件系统的集群由一个Master附带多个Chunkserver组成,并可以通过多个Client进行访问。当Client发出存储文件请求时,首先将文件分割成大小固定的Chunk块;然后,Master给每个Chunk块分配唯一的标识Chunk Unicode;最终,Chunk块被存储在本地磁盘上,并依据对应的Chunk Unicode和字节范围实现Chunkserver的读写操作。默认情况下,GFS会将每个Chunk块复制保存到3个Chunkserver上,以确保数据的稳定和安全,并且可以通过改变文件命名空间的设置完成不同的备份策略。图3展示了GFS架构运行的流程:其中,命名规则、访问控制、映射表等元数据信息保存在Master的内存或硬盘中。Master管理这些信息的同时,还通过心跳协议完成Chunk块的校验、备份、迁移等系统策略的实施。
现有技术介绍:
HDFS具有以下存储策略:
容错机制:HDFS默认为每个数据创建三个副本块,第一个副本设置在本地机架的节点上;第二个副本存放在另一个节点的第一个相同机架上;第三个放置在该节点的不同机架上。HDFS文件存储的过程中有两种常见的错误:一种是节点故障,另一种是数据损坏。
节点故障主要是指由网络分区导致的DataNode故障:DataNode定期向NameNode发送心跳消息,如果NameNode在规定时间内没有收到DataNode的消息,DataNode就会被认为是无序的,会被标记为死节点。由于死节点的存在,NameNode会不断检测到数据副本的不足,随即会启动复制机制。
数据损坏是指从DataNode读取的数据发生损坏现象:HDFS采用校验文件方式检测数据的完整性。当客户端创建文件时,新文件包含数据块的总和会被保存在校验文件的校验数中。客户端读取文件时,数据块数的总和将与校验文件中的校验数进行比对,若二者相同,则数据完整,否则将读取其他数据块进行复制补充。
平衡机制:HDFS的平衡指文件块良好地分布于集群的每个节点上。文件块的分布是一个动态过程,HDFS提供了平衡器工具以确保存储结果的平衡。
故障检查和自动快速恢复能力是HDFS的核心目标。心跳机制实现了故障节点的检测,通常使用这种机制验证节点的可靠性,以便在写入文件之前完成DataNode节点的过滤工作,从而将失效后的被动检测转换为使用前的主动筛选。机制的形式化描述如下:
(1)NameNode根据用户和数据字符的需要给出可靠阈值H;
(2)NameNode计算离客户端最近的机架;
(3)量化机架中所有节点的可靠性,将可靠性阈值小于H的节点删除;
(4)量化剩余节点的存储成本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都雅骏新能源汽车科技股份有限公司,未经成都雅骏新能源汽车科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711337752.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种歌词的显示方法和移动终端
- 下一篇:一种IOP平台的表格导出方法





