[发明专利]基于GFS的分布式文件系统的元数据分级存储方法和系统无效
申请号: | 201210592003.X | 申请日: | 2012-12-31 |
公开(公告)号: | CN103078936A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 洪珂;陈进贤;周国美 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gfs 分布式 文件系统 数据 分级 存储 方法 系统 | ||
技术领域
本发明涉及分布式存储相关的技术,尤其涉及内容分发网络中基于GFS的分布式文件系统中和元数据相关的分级存储方法和系统。
背景技术
随着互联网应用的种类越来越多,面对不断增长的互联网用户,也带来了不同的不断增长的海量数据。如何提高存储和处理这些海量数据的能力,对于互联网企业是一个巨大的技术挑战。为了解决海量数据存储问题,分布式文件系统应运而生。基于分布式文件系统架构提供存储服务能够充分利用现有的低端硬件设备的处理能力,并提高了用户访问存储的效率和存储服务的可靠性。
市面上各种分布式文件系统种类繁多,层出不穷,其中包括了Google的核心存储平台GFS(Google文件系统),Apache开源社区的Hadoop,以及glusterFS、lustre、GPFS(General Parallel File System)等。分布式文件系统的元数据处理方式包括三大类,如GFS、lustre使用的是中央控制元数据服务器,GPFS使用的是分布式元数据服务器模型,glusterFS使用的是无元数据模型。
其中以GFS为典型代表的分布式文件系统采用的是服务器/客户端结构,如图1所示,主要组成部分包括元数据服务器master(主服务器)、数据服务器chunk server和客户端client,三者之间通过各自的网络协议进行指令和数据通信。
客户端client可以看作是分布式文件系统的接口,负责应用程序与文件系统的沟通。文件划分成固定大小的chunk,每个chunk由一个64bit的chunk handle唯一标识,由主服务器master创建时分配。所有的客户端client读取文件的时候,都需要首先从主服务器master上获取元数据信息(如图1所示master与client之间的元数据传输),获取到元数据信息之后解析得到数据所在的数据服务器chunk server的ip和chunk的id,根据这些信息进一步与数据服务器chunk server进行交互(如图1所示client与chunk server之间的数据传输),读取得到所需要的数据。
数据服务器chunk server负责存储文件的chunk,根据client提供的chunk信息,读写chunk数据,周期性地向master报告本地存储的chunk状态信息。数据服务器chunk server用于存储的磁盘信息是可配置的,可以将数据服务器chunk server进程所在的服务器的多个disk配置到数据服务器chunk server的管控范围内,用于提供存储。并且数据服务器chunk server之间可以相互复制chunk的副本,这一点有利于提高系统的可靠性。
元数据存储在主服务器master上,包括命名空间、访问控制信息、文件到chunk的映射、当前chunks的位置信息等,主服务器master与每个数据服务器chunk server间使用如图1所示的指令交互(管理信息/状态信息)周期地通信,发送管理信息指令到数据服务器chunk server并接收数据服务器chunk server的状态信息。
中央控制元数据服务器模式的分布式文件系统结构图如图1所示,其中粗实线表示数据/元数据交互,细实线表示指令交互(管理信息、状态信息)。
图2示出了传统的中央控制元数据服务器模式下主服务器master处理客户端请求元数据信息的流程。首先,主服务器接收到客户端发送过来的请求包,解析请求包,如果该请求的操作为读取文件的位置信息的请求,则检查内存中是否存在该文件的元数据信息;如果在内存中找到该文件的元数据信息,则直接将该文件的元数据(位置)信息打包返回给客户端;如果不存在该文件的元数据信息,则打包“no file”或“no chunk”等相关的错误信息返回给客户端;客户端接收到主服务器的数据包进行解析之后,判断是否去读取实际的数据。
在这种分布式文件系统中,主服务器master把所有的元数据信息都保存在内存中,对于有大量小文件的存储需求,单个master的模式往往力不从心,因此对于主服务器master的内存要求很高,并且大量的元数据信息也导致系统的存储访问性能降低。另外,在可靠性方面也存在单一失效点问题,如果主服务器master失效,整个系统将无法正常工作。因此,系统存储访问性能与可靠性上的瓶颈是中央控制元数据服务器模式固有的缺点。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592003.X/2.html,转载请声明来源钻瓜专利网。