[发明专利]一种老化历史数据的方法和装置在审

申请号：	201910563330.4	申请日：	2019-06-26
公开（公告）号：	CN110413587A	公开（公告）日：	2019-11-05
发明（设计）人：	王超辉	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/16;G06F16/11
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	杨帆
地址：	215100 江苏省苏州市吴***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	属性目录配置文件历史数据保存老化方法和装置老化数据属性分类自动地集群删除存储记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种老化历史数据的方法，包括以下步骤：设置配置文件，配置文件中包括属性目录的路径和所述属性目录下数据的保存周期；将待存储的数据按属性分类后，存入对应属性目录下的对应日期目录下；以及根据所述配置文件中记录的属性目录的路径和所述保存周期，删除所述属性目录中的所述保存周期以外的日期目录中的数据。通过本发明，能够自动地彻底清除老化数据，节省集群空间。

技术领域

本发明涉及计算机领域，并且更具体地，涉及一种基于HDFS分布式文件系统老化历史数据的方法和装置。

背景技术

由于近年来信息技术的迅速发展和广泛普及，大量的数据以指数级增长，谷歌、雅虎、亚马逊等大企业面临海量数据的挑战。谷歌率先推出了谷歌文件系统GFS和MapReduce来应对海量数据的存储和处理，引起广泛的关注，并迅速催生了一个开源的版本，称为Hadoop。在近几年飞速的发展后，Hadoop已经成为互联网公司基础计算平台的一个重要部分，在腾讯、百度、阿里巴巴等国内大企业，以及Twitter、Facebook等国外大企业中，均有自己定制的版本。Hadoop是专门为离线处理和大规模数据分析而设计的，在一次写入多次读取的事务上，Hadoop以高效的实现和稳定的性能，在互联网企业中得到广泛的支持和应用。

伴随着云计算的蓬勃发展，也碰到了许多关键性问题，安全问题尤其突出。Hadoop的分布式存储系统称为Hadoop分布式文件系统，简称HDFS，它由名字节点、第二名字节点、数据节点和DFS客户端等实体节点组成。目前业内关于HDFS分布式文件系统老化历史无用数据的方法相对比较传统，大多数是在空间不足时，手动查看无用数据并进行命令删除；然后清理HDFS垃圾回收箱，以达到最终彻底删除的目的。

因此，实现自动老化集群历史数据不仅可以避免人工误操作，节省人力巡检时间，还能保证集群存储负载，节省集群空间。

发明内容

鉴于此，本发明实施例的目的在于提出一种基于HDFS分布式文件系统老化历史数据的方法和装置，实现自动老化集群历史数据，使得大数据集群存储空间得到充分利用，避免历史无价值老数据冗余带来的一系列问题。

基于上述目的，本发明实施例的一方面提供了一种老化历史数据的方法，包括以下步骤：

设置配置文件，配置文件中包括属性目录的路径和所述属性目录下数据的保存周期；

将待存储的数据按属性分类后，存入对应属性目录下的对应日期目录下；以及

根据所述配置文件中记录的属性目录的路径和所述保存周期，删除所述属性目录中的所述保存周期以外的日期目录中的数据。

在一些实施方式中，所述方法基于HDFS分布式文件系统。

在一些实施方式中，所述删除的数据进入所述HDFS分布式文件系统的回收箱，其中所述方法还包括：

根据所述配置文件，将被删除到所述回收箱中的所述删除数据彻底清除。

在一些实施方式中，所述根据所述配置文件中记录的属性目录的路径和所述保存周期，删除所述属性目录中的所述保存周期以外的日期目录中的数据包括：

读取所述配置文件获取属性目录的路径和保存周期，找到所述属性目录并遍历下级日期目录，根据系统时间和所述保存周期推算需要保存的数据和需要删除的数据。