[发明专利]Hadoop多管道数据处理分析方法在审

专利信息
申请号: 201710347164.5 申请日: 2017-05-17
公开(公告)号: CN107193926A 公开(公告)日: 2017-09-22
发明(设计)人: 林森;唐宁;马娜 申请(专利权)人: 北京快友世纪科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/50
代理公司: 暂无信息 代理人: 暂无信息
地址: 100020 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: hadoop 管道 数据处理 分析 方法
【说明书】:

技术领域

发明涉及数据处理技术领域,具体涉及一种Hadoop多管道数据处理分析方法。

背景技术

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop主要有以下几个优点:

1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。

3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5、低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。到目前为止,Hadoop技术在互联网领域已经得到了广泛的运用,例如,Yahoo使用4000个节点的Hadoop集群来支持广告系统和Web搜索的研究;Facebook使用1000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,从而进行搜索日志分析和网页数据挖掘工作;中国移动研究院基于Hadoop开发了″大云″(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。

使用MapReduce编程模型是处理Hadoop多管道数据的一种方式。虽然采用MapReduce编程模型处理Hadoop多管道数据能够获得计算优势,但是并没有充分考虑分布式程序的有效运行。MapReduce编程模型在处理以小的数据块所存储的数据文件时,会启动更多的映射(map)任务,但也会造成较大的开销。当采用大块时,可以减少客户端与主服务器通讯的需求,也会降低主服务器需要保存的元数据的空间,却不能有效地利用可用的并行计算资源。

发明内容

为了克服现有技术中存在的问题,本发明提供一种Hadoop多管道数据处理分析方法,该方法利用MapReduce编程模型来处理海量数据,在设计时只需考虑事务的分配策略与MapReduce函数对的设计,而对于其他并行计算中的复杂问题,如工作调动、容错处理、分布式存储、网络通信等则交给Hadoop平台进行处理。因此,能够改善大数据的更新分析处理效率。

为实现上述目的,本发明提供一种Hadoop多管道数据处理分析方法,该方法利用服务器中的MapReduce编程模型来处理海量数据,所述的服务器包括外部设备、处理单元、总线、网络适配器、I/O接口和系统存储器,处理单元、网络适配器、I/O接口和系统存储器均通过总线连接并通信,外部设备与I/O接口连接,所述的MapReduce编程模型设置在服务器的系统存储器中;该方法包括以下步骤:

第一、利用外部设备输入大数据文件,MapReduce编程模型将输入的大数据文件分成若干独立的数据,并在不同的机器上进行程序数据的备份;

第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;

第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;

第四、发送消息,分区函数将所述的中间键/值对分成若干区,将各个区在磁盘中的位置信息发送给主程序,然后转发给Reduce子事务节点;

第五、调用中间数据,Reduce子事务节点获取由主程序转发的子事务后,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;

第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数,执行结果将被输出到最终的输出文件中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710347164.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top