[发明专利]一种应用于RCFile存储模型的预分配的自适应压缩方法有效

专利信息
申请号: 201611199323.3 申请日: 2016-12-22
公开(公告)号: CN106817406B 公开(公告)日: 2020-05-26
发明(设计)人: 陈珊珊;何海洋;韦立 申请(专利权)人: 南京邮电大学
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06
代理公司: 南京知识律师事务所 32207 代理人: 李湘群
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 应用于 rcfile 存储 模型 分配 自适应 压缩 方法
【权利要求书】:

1.一种应用于RCFile存储模型的预分配的自适应压缩方法,其特征在于包括以下步骤:

S1:在客户端使用轻量级数据向量预分配算法,将相同或相似的数据向量分配到相应的服务器数据节点,增加同一个服务器数据节点的数据可压缩性,所述在客户端使用轻量级预分配算法,对客户端数据进行分配的过程具体如下:

S11:根据服务器节点历史数据抽样,建立映射至二维第一象限的标准向量空间;

S12:获取任意一个客户端的数据向量,将该数据向量的特征向量与客户端定义的标准向量求得余弦相似值,根据相似值判断该客户端数据向量隶属于哪一个服务器数据节点,记录该服务器数据节点编号Nodenum,并向服务器控制节点发送该数据以及其请求的服务器数据节点编号;

S13:服务器控制节点接收到S12中数据向量和其请求编号Nodenum时,根据设定存储阀值以及实时状态判定其请求编号为Nodenum服务器节点是否可存储数据,如果可以,那么在服务器数据节点直接存储该客户端数据向量;如果不可以,那么根据预先定义的标准向量空间,将客户端数据存储到满足条件的邻近服务器数据节点,并且记录客户端数据实际存储的服务器数据节点编号Node'num

S14:将S13中服务器数据节点编号Node'num返回给控制节点,更新控制节点中该客户端数据向量存储服务器数据节点编号,再执行S12;

S2:在服务器数据节点端,使用基于代价的压缩算法,对同一服务器节点数据进行自适应压缩,所述的使用基于代价的压缩算法CCA,对同一服务器节点数据进行自适应压缩具体包括:

S21:获取一个满足压缩条件的服务器数据节点,假设每个服务器数据节点包含m个行组,记录每个行组每行的元素个数为j;

S22:从行组第一行开始,从前m-1个行组第一行随机抽取k个元素,j/m=λk,λ=2,4,8,...,2n,从剩下的行组,也就是第m个行组第一行中选取r个元素,jmodm=λr,λ=2,4,8,...,2n,以此类推;

S23:合并S22中抽取的数据,形成新的纪录,记NewRow;

S24:对NewRow进行压缩代价分析,对NewRow并发执行多种轻量级压缩算法,记录每一种压缩算法的压缩时间与压缩率,根据压缩时间与压缩率确定压缩代价;

S25:为行组每一行选择代价最小的压缩算法压缩服务器数据节点,再执行S21。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611199323.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top