[发明专利]一种大数据的流处理方法在审

专利信息
申请号: 201610963367.2 申请日: 2016-11-04
公开(公告)号: CN106855805A 公开(公告)日: 2017-06-16
发明(设计)人: 裴旭斌;方舟;沈志豪;吴尚远;王志强;沈潇军;王以良;裘炜浩;戚伟强;龚小刚;张秋霞;王冠男;张金帅 申请(专利权)人: 国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司
主分类号: G06F9/44 分类号: G06F9/44;G06F9/445
代理公司: 北京风雅颂专利代理有限公司11403 代理人: 李莎,李弘
地址: 310007*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 处理 方法
【说明书】:

技术领域

发明涉及大数据应用领域,特别是指一种大数据的流处理方法。

背景技术

大数据的应用类型很多,主要的处理模式可以分为流处理(Stream Processing)和批处理(Batch Processing)两种。批处理是先存储后处理(Store-then-process),而流处理则是直接处理(Straight-through processing)。批处理计算模式的研究是以Google公司在2004年提出MapReduce编程模型作为研究的开始,MapReduce模型公开后,立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。

目前,关于大数据批处理计算相关技术的研究相对成熟,形成了以Google的MapReduce编程模型、开源的Hadoop计算系统为代表的高效稳定的批处理计算系统,在理论上和实践中均取得了显著成果。Map Reduce框架提出后,为了支持快速对数据进行分析,业界有陆续推出了用于支持高速分析的Hive框架,用于支持数据挖掘的Mahout分析库和用于加速大数据处理的PIG框架等,这些框架的提出进一步简化了大数据离线处理工作的难度。

实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。

发明内容

有鉴于此,本发明的目的在于提出一种大数据的流处理方法。

基于上述目的本发明提供的一种大数据的流处理方,包括:

当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序,:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。

进一步的,所述第一阶段具体包括:

用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等;

ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。

进一步的,所述第二阶段具体包括:

ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束。

进一步的,还包括:

ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源;

一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务;

NodeManager为任务设置好运行环境后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务;

各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务,在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

进一步的,还包括:

在应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。

从上面所述可以看出,本发明提供的大数据的流处理方,包括:当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序,:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。本发明的大数据的流处理方,具有高可靠性、高扩展性、高效性和高容错性。

附图说明

图1为本发明实施例的体系结构示意图;

图2为本发明实施例的工作原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明提供一种大数据的流处理方,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司,未经国网浙江省电力公司;北京国电通网络技术有限公司;国网信息通信产业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610963367.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top