[发明专利]Hadoop多管道数据处理分析方法在审
申请号: | 201710347164.5 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193926A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 林森;唐宁;马娜 | 申请(专利权)人: | 北京快友世纪科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hadoop 管道 数据处理 分析 方法 | ||
1.一种Hadoop多管道数据处理分析方法,其特征在于,该方法利用服务器中的MapReduce编程模型来处理海量数据,所述的服务器包括外部设备、处理单元、总线、网络适配器、I/O接口和系统存储器,处理单元、网络适配器、I/O接口和系统存储器均通过总线连接并通信,外部设备与I/O接口连接,所述的MapReduce编程模型设置在服务器的系统存储器中;该方法包括以下步骤:
第一、利用外部设备输入大数据文件,MapReduce编程模型将输入的大数据文件分成若干独立的数据,并在不同的机器上进行程序数据的备份;
第二、分配事务,MapReduce编程模型中的主程序节点分配子事务,并将子事务通过网络适配器递交给空闲的工作机节点中;
第三、生成键/值对,被分配了子事务的工作机节点读取输入的大数据文件,从中解析出键/值对,并调用用户编写的Map函数处理键/值对,并生成中间键/值对;
第四、发送消息,分区函数将所述的中间键/值对分成若干区,将各个区在磁盘中的位置信息发送给主程序,然后转发给Reduce子事务节点;
第五、调用中间数据,Reduce子事务节点获取由主程序转发的子事务后,根据位置信息调用磁盘上的中间数据,并对这些中间数据按照key值进行排序,相同的key值进行合并操作;
第六、执行Reduce函数,Reduce子事务节点遍历排序后的中间数据,并将数据传递给用户定义的Reduce函数,执行结果将被输出到最终的输出文件中;
第七、输出结果,当所有的Reduce子事务完成后,主程序节点将所有数据返回给用户程序,用户程序合并数据并输出最终数据。
2.如权利要求1所述的Hadoop多管道数据处理分析方法,其特征在于,所述的外部设备包括U盘或光驱。
3.如权利要求1所述的Hadoop多管道数据处理分析方法,其特征在于,所述的系统存储器包括存储系统、RAM、高速缓存和程序模块,所述的MapReduce编程模型设置在程序模块中。
4.如权利要求1或2或3所述的Hadoop多管道数据处理分析方法,其特征在于,所述的程序模块中还存储有操作系统、一个或多个应用程序以及程序数据。
5.如权利要求4所述的Hadoop多管道数据处理分析方法,其特征在于,所述的总线包括工业标准体系结构总线、微通道体系结构总线、增强型ISA总线、视频电子标准协会局域总线以及外围组件互联总线。
6.如权利要求4所述的Hadoop多管道数据处理分析方法,其特征在于,所述的服务器能够通过I/O接口与网卡或调制解调器进行通信。
7.如权利要求4所述的Hadoop多管道数据处理分析方法,其特征在于,所述的服务器能够通过网络适配器与一个或多个局域网、广域网和/或公共网络通信。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710347164.5/1.html,转载请声明来源钻瓜专利网。