[发明专利]一种基于Hadoop平台的分布式重复数据删除系统和方法有效

专利信息
申请号: 201510738881.1 申请日: 2015-11-03
公开(公告)号: CN105320773B 公开(公告)日: 2018-10-26
发明(设计)人: 付印金;刘青;倪桂强;姜劲松;胡谷雨 申请(专利权)人: 中国人民解放军理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人: 何青瓦
地址: 210000 江苏省南京市海*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Hadoop平台的分布式重复数据删除系统和方法。该系统包括客户端、主节点和工作节点,通过Hadoop平台的MapReduce并行编程框架实现分布式并行重复数据删除处理,实现方法包括客户端向主节点发送文件,主节点完成文件分片、数据分配以及构建文件元数据表,各个工作节点对数据分片按细粒度进行分块,计算细粒度数据块的指纹值,并在数据库Hbase的索引中进行查询比对,将新数据块存储在分布式文件系统HDFS中,再将索引信息反馈给主节点。该系统和方法能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。
搜索关键词: 主节点 重复数据删除系统 工作节点 客户端 分布式文件系统 重复数据删除 细粒度数据 并行编程 发送文件 高吞吐率 可扩展性 数据分配 数据分片 索引信息 文件分片 新数据块 细粒度 比对 分块 构建 索引 指纹 并行 数据库 存储 查询 反馈 保证
【主权项】:
1.一种基于Hadoop平台的分布式重复数据删除方法,包括基于Hadoop平台构建的重删集群,所述重删集群包括客户端、主节点和至少两个工作节点,其特征在于,包括如下步骤:第一步,文件分片,由所述客户端指定需要进行重复数据删除处理的文件提交给所述主节点,所述主节点将接收的所述文件分成大小均等的粗粒度数据片;第二步,数据片分配,由所述主节点通过Hadoop平台将所述粗粒度数据片分配到所述各个工作节点;第三步,数据片分块,各工作节点均仅通过Map函数并行运行,对所分配的粗粒度数据片通过定长分块方法或者变长分块方法进一步划分为细粒度数据块,所述定长分块方法是以固定大小的数据内容作为数据块单元来划分文件,所述变长分块方法是基于文件的内容通过计算滑动窗口的弱哈希指纹来确定数据块的分割点;第四步,计算指纹值,各个工作节点对划分后的细粒度数据块根据哈希函数计算出所述细粒度数据块的指纹值;第五步,块索引查询,所述各个工作节点在已建立的块索引中,查询所述细粒度数据块的指纹值是否存在,若所述细粒度数据块的指纹值在所述索引中已存在,则不再存储所述细粒度数据块,若所述细粒度数据块的指纹值在所述索引中不存在,则将所述细粒度数据块存储到HDFS文件系统中,并根据所述细粒度数据块的存储信息在所述块索引中添加相应的块索引信息,所述块索引是通过HBase数据库构建的一个全局块索引,所述全局块索引被各个工作节点所共享,并且所述HBase数据库为分布式非关系型HBase数据库;第六步,文件元数据表更新,各个所述工作节点将所属的所述细粒度数据块对应的块索引信息反馈给所述主节点,所述主节点将所述块索引信息存储到已建立的文件元数据表中,建立文件全路径到细粒度数据块的映射关系,以支持后续的文件读操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军理工大学,未经中国人民解放军理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510738881.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top