[发明专利]基于分层治理的HDFS分布式与集中式混合数据存储系统的方法在审
申请号: | 201810568779.5 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108776690A | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 赵继胜;吴宇 | 申请(专利权)人: | 上海孚典智能科技有限公司;吴宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 200082 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 低活性 存储 存储系统 混合数据 高活性 集中式 冷数据 分层 分布式存储方式 分布式文件系统 网络文件系统 多层次数据 集中式存储 有效的管理 存储资源 定位策略 横向扩展 计算资源 数据总体 文件存储 用户策略 有效治理 纵向扩展 大数据 可定制 热数据 资源量 缓释 并发 治理 调度 厂商 释放 占据 管理 应用 帮助 安全 | ||
本发明提供了一种基于分层治理的分布式与集中式混合数据存储系统,通过将分布式文件系统HDFS与集中式存储的网络文件系统(NFS)结合,以HDFS存储高活性数据(或称为热数据),以NFS存储低活性数据(或称为温冷数据)。通过提供用户可定制的文件存储定位策略,可以将基于用户策略定义的低活性文件由HDFS缓释到NFS系统上,并释放HDFS上相应的空间。本项发明可以帮助使用基于HDFS的大数据应用厂商对存储资源进行有效的管理和调度,确保高活性数据以分布式存储方式进行管理,并提供高并发相应,而低活性数据可以NFS方式存储,而无须引发由扩展HDFS容量(横向扩展)而导致增加不必要的计算资源,从而造成资源量费的情况。通过NFS良好的纵向扩展能力,保障了占据数据总体份额多数的温冷数据以相对低廉且安全的方式进行管理,实现了对多层次数据的有效治理。
技术领域
本发明属于涉及信息技术领域,尤其是涉及一种基于数据分层治理的HDFS分布式于集中式混合数据存储的方法。
背景技术
近年来,随着大数据应用的广泛发展,基于hadoop的运算框架已经成为业界标准的并行运算环境之一。而与hadoop map-reduce对应的分布式文件系统HDFS也已经成为一个业界标准的分布式存储系统,其具备的多幅本和纠删码机制可以以比较便捷的方式保护数据,同时提供高并发能力。HDFS主要依赖hadoop集群的运算节点(计算服务器节点)的磁盘进行存储,因此具备横向扩展能力,但也因此对存储容量的扩展形成了一定程度的制约。特别是对有纵向扩展能力要求的场景,即无需扩展计算能力,只需扩展存储能力的场景。横向扩展往往造成计算资源的浪费,也间接造成能源的浪费。
本项专利基于对数据治理的观察,在活跃数据(热数据)与非活跃数据(温冷数据)并存的应用中,通常需要数据迁移策略,以便将非活跃数据迁移至响应速度低一些的存储介质中。在本项专利中,通过预设或用户定义的活跃度检测算法,将HDFS的数据文件依据活跃度下移到以网络文件系统实现的集中式存储(NFS存储)中。鉴于HDFS的高并和数据的高本地命中率,适于保存活跃数据,而将非活跃数据迁移至以NFS为基础的二级存储介质,从而保障在无需横向扩展的同时,支持良好的纵向扩展并具备接近HDFS的响应速度。
发明内容
针对现有的HDFS分布式文件系统存在的纵向扩展能力问题和数据治理问题,本发明的目的是提供一种高效的自动化数据治理方法,将HDFS的非活跃数据自动下移到NFS存储系统中。从而在以下三方面为基于hadoop的大数据应用提供了良好的存储支持:
1.保障自动纵向扩展;
2.维持HDFS本身的高响应能力;
3.保持数据完整性和安全性。
为实现上述发明目的,本发明提供了一种基于分层治理的HDFS分布式与集中式混合数据存储的方法,HDFS文件系统中存储的数据文件可以随这活跃的的下降,从服务区节点的磁盘逐步迁移到NFS存储设备中,在包括:
步骤一,对HDFS文件系统的namenode(即读写操作的主控系统)进行修改,使其支持:1.对文件读写的动态采样;2.多副本块存储在异构存储介质间的调度,即namenode可以制定数据块在datanode(即HDFS的数据存储节点)和NFS存储之间切换。
步骤二,定义文件数据迁移规则,即根据动态采样得来的文件读写操作记录,实现将数据存储依据数据活跃度从高到低在如下从1到4的存储状态依次转换:1.三副本同一存储介质(计算服务器节点的磁盘);2.三副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);3.二副本异构存储介质(计算服务器节点的磁盘+NFS存储设备);4.NFS存储。
步骤三,实现根据动态采样决策存储状态切换的触发算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海孚典智能科技有限公司;吴宇,未经上海孚典智能科技有限公司;吴宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810568779.5/2.html,转载请声明来源钻瓜专利网。