[发明专利]Hadoop多管道数据处理分析方法在审
申请号: | 201710347164.5 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193926A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 林森;唐宁;马娜 | 申请(专利权)人: | 北京快友世纪科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hadoop 管道 数据处理 分析 方法 | ||
技术领域
本发明涉及数据处理技术领域,具体涉及一种Hadoop多管道数据处理分析方法。
背景技术
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop主要有以下几个优点:
1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。
3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5、低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。到目前为止,Hadoop技术在互联网领域已经得到了广泛的运用,例如,Yahoo使用4000个节点的Hadoop集群来支持广告系统和Web搜索的研究;Facebook使用1000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,从而进行搜索日志分析和网页数据挖掘工作;中国移动研究院基于Hadoop开发了″大云″(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。
使用MapReduce编程模型是处理Hadoop多管道数据的一种方式。虽然采用MapReduce编程模型处理Hadoop多管道数据能够获得计算优势,但是并没有充分考虑分布式程序的有效运行。MapReduce编程模型在处理以小的数据块所存储的数据文件时,会启动更多的映射(map)任务,但也会造成较大的开销。当采用大块时,可以减少客户端与主服务器通讯的需求,也会降低主服务器需要保存的元数据的空间,却不能有效地利用可用的并行计算资源。
发明内容
为了克服现有技术中存在的问题,本发明提供一种Hadoop多管道数据处理分析方法,该方法利用MapReduce编程模型来处理海量数据,在设计时只需考虑事务的分配策略与MapReduce函数对的设计,而对于其他并行计算中的复杂问题,如工作调动、容错处理、分布式存储、网络通信等则交给Hadoop平台进行处理。因此,能够改善大数据的更新分析处理效率。
为实现上述目的,本发明提供一种Hadoop多管道数据处理分析方法,该方法利用服务器中的MapReduce编程模型来处理海量数据,所述的服务器包括外部设备、处理单元、总线、网络适配器、I/O接口和系统存储器,处理单元、网络适配器、I/O接口和系统存储器均通过总线连接并通信,外部设备与I/O接口连接,所述的MapReduce编程模型设置在服务器的系统存储器中;该方法包括以下步骤:
第一、利用外部设备输入大数据文件,MapReduce编程模型将输入的大数据文件分成若干独立的数据,并在不同的机器上进行程序数据的备份;
第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;
第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;
第四、发送消息,分区函数将所述的中间键/值对分成若干区,将各个区在磁盘中的位置信息发送给主程序,然后转发给Reduce子事务节点;
第五、调用中间数据,Reduce子事务节点获取由主程序转发的子事务后,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;
第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数,执行结果将被输出到最终的输出文件中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710347164.5/2.html,转载请声明来源钻瓜专利网。