[发明专利]一种用于大数据存储系统的数据压缩引擎及方法有效
申请号: | 201710483336.1 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107463606B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 陈海江;周岐武 | 申请(专利权)人: | 浙江力石科技股份有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F16/182;G06F16/17 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 311121 浙江省杭州市余杭区文一西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数据 存储系统 数据压缩 引擎 方法 | ||
本发明提出一种用于大数据存储系统的数据压缩引擎及方法,针对HDFS系统中海量小文件,判定各个小文件所属的访问热度等级,设置与各个访问热度等级相对应的元数据表副本机制及检索进程数机制;其中,对于高热度等级的小文件不予以合并和压缩;对于中等热度等级的小文件引入合并处理,不予以压缩;对于低热度等级的小文件引入合并与压缩处理,并且将同源的小文件合并为一个更大的文件结构并进行数据压缩。另外,本发明会针对高热度等级的小文件建立常驻的访问任务,从而避免了访问任务频繁开设和回收所带来的低效现象。
技术领域
本发明涉及一种大数据应用技术,尤其涉及一种用于大数据存储系统的数据压缩引擎及方法。
背景技术
Hadoop是一种基于分布式计算机集群进行高速运算和数据存储的体系架构,是当前各种网络服务商在执行海量级大数据的汇集和分析时选用的主流平台。
HDFS是一种分布式文件系统,可在计算机集群之上进行构建,提供可靠性强、低成本、高传输率的数据存储、访问和管理功能,可以容纳海量级大数据,并支撑以此等规模的数据量为基础的网络应用,是Hadoop体系当中不可或缺的重要组成部分。
HDFS采用的体系架构和操作流程如图1A-B所示。HDFS以数据流的形式执行存取,并且支持一次写入之后的多次读取。在存储数据的过程中,HDFS系统集群中的客户端节点1向名称节点2发送写文件请求;名称节点2向客户端1返回至少一个可用数据节点3的信息;进而,客户端节点1将待写入的文件拆分为分块,每个分块的大小默认为64M,文件数据可以占据一整个分块或者是分块的一部分;客户端节点1将待写入文件的各个分块以数据流的形式并行地发送至可用数据节点3进行存储;发送完成后,客户端节点1向名称节点2提交为该写入文件登记元数据的请求;名称节点2收到该请求后与数据节点3进行确认,然后,名称节点2中建立元数据,元数据中存储了该写入文件的文件标识符、写入文件对应的各个分块的分块标识符以及各个分块所在的数据节点的网络地址。在访问数据过程中,如图1B所示,客户端节点1向名称节点2发送读取文件请求;名称节点2搜索元数据,获得待读取文件对应的各个分块的分块标识符,以及获得这些分块所在的数据节点3的网络地址;名称节点2将分块标识符以及分块所在数据节点的网络地址发送给客户端节点1;客户端节点1与具有待读取文件的分块的数据节点3建立连接,并以数据流的形式获取分块。
HDFS主要是面向具有数百MB、GB甚至TM数据规模的文件所设计的一套分布式存储系统。HDFS架构并不适合小文件的存取,这里所谓“小文件”是指该文件的数据量小于分块的默认大小64M。如果HDFS系统中存在的小文件的数量过多,就会给该系统的性能带来巨大的不良影响。原因在于:第一,名称节点2中为每个文件(不论其大小)所建立的元数据均至少占据固定的150byte的空间;显然,如果存在成千上万计的小文件,由小文件产生的元数据会大量消耗名称节点2的可用存储空间;而且,名称节点2串行检索各个元数据以查询待读取文件涉及的分块,由小文件产生的过多元数据会给检索带来很大的困难。第二,如果客户端节点需要访问大量的小文件,那就要不断从一个数据节点3到另一个数据节点3去获得各个小文件的分块,这一过程会消耗大量系统资源。第三,HDFS系统在读取数据时,为每个文件开设一个访问任务并分配相应的资源,显然,如果对每个小文件的读取都占用一个访问任务,那么大部分时间都将用于开设和收回小文件的访问任务,而真正用于读取数据的时间却没有多少。
在实际的各种网络服务当中,小文件是广泛存在于基于HDFS的大数据存储体系当中的。例如,各种网站中的图片文件、注册用户的个人信息登记文件、网上购物的单个订单记录等,其一般均不超过HDFS当中为一个块所设定的64M的大小。因此,克服海量小文件给基于HDFS架构的大数据存储系统所带来的效率严重降低,是实际应用当中必须解决的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江力石科技股份有限公司,未经浙江力石科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710483336.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置