[发明专利]一种应用于RCFile存储模型的预分配的自适应压缩方法有效
申请号: | 201611199323.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106817406B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 陈珊珊;何海洋;韦立 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 rcfile 存储 模型 分配 自适应 压缩 方法 | ||
本发明公开了一种应用于RCFile存储模型的预分配的自适应压缩方法。首先在客户端建立数据向量分配算法PPDA以确定数据向量属于哪一个服务器数据节点,实现相同或者相似数据的聚集在同一个服务器数据存储节点,提高同一服务器节点的数据冗余度;然后在服务器数据节点端,针对RCFile行组特点,建立基于代价的压缩算法CCA为行组的不同行选择最优的轻量级压缩算法。本发明能够增加同一服务器数据节点的数据冗余度,能够为行组的每一行选择高效的压缩算法进行数据压缩,节约系统资源,提高系统存储能力。
技术领域
本发明是一种应用于RCFile存储模型的预分配的自适应压缩方法。主要用于提高使用RCFile作为其存储格式的存储系统的存储能力,节约系统资源,属于数据压缩与存储技术领域。
背景技术
随着电子信息技术的飞速发展,特别是云计算、物联网、社交媒体和社交网络的迅速发展,数据量正在以前所未有的速度增长。如此大的数据量,对传统的行存储模式提出了挑战.为了提高系统综合性能,Facebook公司提出的RCFile存储结构,是一种高效的存储结构,该存储结构遵循的是“先水平划分,再垂直划分”的设计理念,集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演着重要角色。
大数据环境下需要处理的数据量往往是是非常庞大的,这造成查询时大量的I/O,由于CPU处理与磁盘访问发展的不平衡,使得I/O成为了查询的瓶颈。因此,减少I/O的次数能显著提高查询的效率,而数据压缩则能在一定程度上减少I/O的次数,因此,数据压缩成为解决大数据问题的一个研究热点。研究如何针对特定的存储模型采取恰当的压缩策略是十分有意义的。数据的可压缩性取决于数据冗余度。在大数据环境下,数据的来源是复杂的。以电商交易平台为例,不同的客户端产生相同的订单数据或者相似的订单数据可能被分配到不同的服务器数据节点进行存储,这导致在同一个服务器数据节点所存储的数据冗余度较低,从而导致数据压缩效率较低。
发明内容
本发明的目的是提供一种应用于RCFile存储模型的预分配的自适应压缩方法,该方法能够增加同一服务器数据节点的数据冗余度,能够为行组的每一行选择高效的压缩算法进行数据压缩,节约系统资源,提高系统存储能力。
为达到上述目的,本发明提出的技术方案是一种应用于RCFile存储模型的预分配的自适应压缩方法,包括以下步骤:
S1:在客户端使用轻量级数据向量预分配算法,将相同或相似的数据向量分配到相应的服务器数据节点,增加同一个服务器数据节点的数据可压缩性;
S2:在服务器数据节点端,使用基于代价的压缩算法,对同一服务器节点数据进行自适应压缩。
进一步,步骤S1中,所述在客户端使用轻量级预分配算法,对客户端数据进行分配的过程具体如下:
S11:根据服务器节点历史数据抽样,建立映射至二维第一象限的标准向量空间;
S12:获取任意一个客户端的数据向量,将该数据向量的特征向量与客户端定义的标准向量求得余弦相似值,根据相似值判断该客户端数据向量隶属于哪一个服务器数据节点,记录该服务器数据节点编号Nodenum,并向服务器控制节点发送该数据以及其请求的服务器数据节点编号;
S13:服务器控制节点接收到S12中数据向量和其请求编号Nodenum时,根据设定存储阀值以及实时状态判定其请求编号为Nodenum服务器节点是否可存储数据,如果可以,那么在服务器数据节点直接存储该客户端数据向量;如果不可以,那么根据预先定义的标准向量空间,将客户端数据存储到满足条件的邻近服务器数据节点,并且记录客户端数据实际存储的服务器数据节点编号Node'num;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199323.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据同步方法和装置
- 下一篇:一种教学信息资源推送方法及系统