[发明专利]一种应用于RCFile存储模型的预分配的自适应压缩方法有效
申请号: | 201611199323.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106817406B | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 陈珊珊;何海洋;韦立 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 rcfile 存储 模型 分配 自适应 压缩 方法 | ||
1.一种应用于RCFile存储模型的预分配的自适应压缩方法,其特征在于包括以下步骤:
S1:在客户端使用轻量级数据向量预分配算法,将相同或相似的数据向量分配到相应的服务器数据节点,增加同一个服务器数据节点的数据可压缩性,所述在客户端使用轻量级预分配算法,对客户端数据进行分配的过程具体如下:
S11:根据服务器节点历史数据抽样,建立映射至二维第一象限的标准向量空间;
S12:获取任意一个客户端的数据向量,将该数据向量的特征向量与客户端定义的标准向量求得余弦相似值,根据相似值判断该客户端数据向量隶属于哪一个服务器数据节点,记录该服务器数据节点编号Nodenum,并向服务器控制节点发送该数据以及其请求的服务器数据节点编号;
S13:服务器控制节点接收到S12中数据向量和其请求编号Nodenum时,根据设定存储阀值以及实时状态判定其请求编号为Nodenum服务器节点是否可存储数据,如果可以,那么在服务器数据节点直接存储该客户端数据向量;如果不可以,那么根据预先定义的标准向量空间,将客户端数据存储到满足条件的邻近服务器数据节点,并且记录客户端数据实际存储的服务器数据节点编号Node'num;
S14:将S13中服务器数据节点编号Node'num返回给控制节点,更新控制节点中该客户端数据向量存储服务器数据节点编号,再执行S12;
S2:在服务器数据节点端,使用基于代价的压缩算法,对同一服务器节点数据进行自适应压缩,所述的使用基于代价的压缩算法CCA,对同一服务器节点数据进行自适应压缩具体包括:
S21:获取一个满足压缩条件的服务器数据节点,假设每个服务器数据节点包含m个行组,记录每个行组每行的元素个数为j;
S22:从行组第一行开始,从前m-1个行组第一行随机抽取k个元素,j/m=λk,λ=2,4,8,...,2n,从剩下的行组,也就是第m个行组第一行中选取r个元素,jmodm=λr,λ=2,4,8,...,2n,以此类推;
S23:合并S22中抽取的数据,形成新的纪录,记NewRow;
S24:对NewRow进行压缩代价分析,对NewRow并发执行多种轻量级压缩算法,记录每一种压缩算法的压缩时间与压缩率,根据压缩时间与压缩率确定压缩代价;
S25:为行组每一行选择代价最小的压缩算法压缩服务器数据节点,再执行S21。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611199323.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据同步方法和装置
- 下一篇:一种教学信息资源推送方法及系统