[发明专利]一种基于Hadoop集群的超大文件并行数据块定位方法有效
申请号: | 201310712421.2 | 申请日: | 2013-12-20 |
公开(公告)号: | CN103699627A | 公开(公告)日: | 2014-04-02 |
发明(设计)人: | 孙彦猛;苏丽;刘文俊;张博为 | 申请(专利权)人: | 北京遥测技术研究所;航天长征火箭技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 安丽 |
地址: | 100076 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop集群的超大文件并行数据块定位方法,本发明是在Hadoop集群中应用Map/Reduce软件实现超大文件内多数据块定位的方法。本发明主要包括以下步骤:组建集群环境、构造序列文件、修改用户程序源代码和通过streaming方式调用用户程序,本发明通过控制Map的数量和序列,确定Map进程与多数据块之间的映射关系,并且可以定位数据块在文件中的位置,让指定Map进程处理指定数据块,同时本发明可以轻松实现超大文件的多数据块并行处理。 | ||
搜索关键词: | 一种 基于 hadoop 集群 超大 文件 并行 数据 定位 方法 | ||
【主权项】:
一种基于Hadoop集群的超大文件并行数据块定位方法,其特征在于包括步骤如下:步骤1:通过搭建Hadoop环境组建Hadoop集群,配置HDFS关键属性;步骤2:构造特定的序列文件;所述的特定序列文件的内容为整型数,每个整型数独占1行,序列文件中每行的值为每个map进程要处理的超大文件中的数据块的偏移量,序列文件的行数等于map进程的个数和需要处理的数据块的个数;构造序列文件的方法为如下方法的任意一种:(a)使用Microsoft Office Excel按列方式生成特定的序列,然后以列方式拷贝到文本文件中;(b)在vim编辑器命令模式下,键入命令生成特定的序列文件;(c)手动生成需要的不规则序列文件(d)通过批处理文件或脚本文件生成特定序列文件;步骤3:修改用户程序使用户程序能够接收由标准输入流传递的数据,将该数据转换成整型数据,并通过该整型数据设置程序中要读的超大文件中的数据块的起始地址;步骤4:通过Hadoop集群的streaming方式调用步骤(3)中修改后的用户程序和步骤(2)中的序列文件完成并行数据块的定位,完成并行数据定位的方法为:通过使用Hadoop集群的streaming方式实现定位程序并行化,通过步骤(2)中序列文件的超大数据的偏移量和步骤(3)中的超大文件的起始地址完成数据的定位。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京遥测技术研究所;航天长征火箭技术有限公司,未经北京遥测技术研究所;航天长征火箭技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310712421.2/,转载请声明来源钻瓜专利网。