[发明专利]一种大数据的流处理方法在审
申请号: | 201610963367.2 | 申请日: | 2016-11-04 |
公开(公告)号: | CN106855805A | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 裴旭斌;方舟;沈志豪;吴尚远;王志强;沈潇军;王以良;裘炜浩;戚伟强;龚小刚;张秋霞;王冠男;张金帅 | 申请(专利权)人: | 国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F9/445 |
代理公司: | 北京风雅颂专利代理有限公司11403 | 代理人: | 李莎,李弘 |
地址: | 310007*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 处理 方法 | ||
技术领域
本发明涉及大数据应用领域,特别是指一种大数据的流处理方法。
背景技术
大数据的应用类型很多,主要的处理模式可以分为流处理(Stream Processing)和批处理(Batch Processing)两种。批处理是先存储后处理(Store-then-process),而流处理则是直接处理(Straight-through processing)。批处理计算模式的研究是以Google公司在2004年提出MapReduce编程模型作为研究的开始,MapReduce模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。
目前,关于大数据批处理计算相关技术的研究相对成熟,形成了以Google的MapReduce编程模型、开源的Hadoop计算系统为代表的高效稳定的批处理计算系统,在理论上和实践中均取得了显著成果。Map Reduce框架提出后,为了支持快速对数据进行分析,业界有陆续推出了用于支持高速分析的Hive框架,用于支持数据挖掘的Mahout分析库和用于加速大数据处理的PIG框架等,这些框架的提出进一步简化了大数据离线处理工作的难度。
实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。
发明内容
有鉴于此,本发明的目的在于提出一种大数据的流处理方法。
基于上述目的本发明提供的一种大数据的流处理方,包括:
当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序,:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。
进一步的,所述第一阶段具体包括:
用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等;
ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
进一步的,所述第二阶段具体包括:
ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束。
进一步的,还包括:
ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源;
一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务;
NodeManager为任务设置好运行环境后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务;
各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务,在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
进一步的,还包括:
在应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。
从上面所述可以看出,本发明提供的大数据的流处理方,包括:当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序,:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。本发明的大数据的流处理方,具有高可靠性、高扩展性、高效性和高容错性。
附图说明
图1为本发明实施例的体系结构示意图;
图2为本发明实施例的工作原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提供一种大数据的流处理方,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司,未经国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610963367.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:代码变更管控方法及装置
- 下一篇:一种界面布局自定义调整的方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置