[发明专利]一种面向迭代式海量实时流计算方法在审
申请号: | 201610040257.9 | 申请日: | 2016-01-18 |
公开(公告)号: | CN105760422A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 张卫山;段鹏程;宫文娟;卢清华;李忠伟 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/54 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266000 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 迭代式 海量 实时 计算方法 | ||
技术领域
本发明涉及云计算大数据计算、分布式计算、流式计算领域,具体涉及到一种面向迭代式海量实时流计算方法。
背景技术
海量数据的计算是大数据产生和发展的基础,目前流行的基于海量数据的编程模型可以分为在线型与离线型、流处理型与批处理型、DAG型与Iterative型等。例如Hadoop可以分为[离线,批处理,DAG]型,Storm可以分为[在线,流处理,DAG]型,Haloop可以分为[离线,批处理,Iterative]型。
然而,目前还没有找到[在线,流处理,Iterative]型的大数据计算框架,而现实应用中有很多类似的应用场景,例如在线推介系统。
因此,目前亟待开发出一种能在线迭代式处理流数据的编程模型。
发明内容
为解决现有技术的不足,本发明提出一种面向迭代式海量实时流计算方法,实现了一种新的大数据下的在线、迭代、内存计算模型,弥补了当前业界对编程模型的不足。
本发明的技术方案是这样实现的:
一种面向迭代式海量实时流计算方法,属于[在线,批处理/流处理,Iterative]类型的大数据编程模型,包括以下步骤:
步骤一、搭建集群环境;
步骤二、开发拓扑结构,上传拓扑任务到大数据集群环境;
步骤三、打开监控页面;
步骤四、启动监控器,感知拓扑结构的运行状态。
可选地,所述步骤一中的集群环境由6台服务器组成,协同运行在一个私有网络空间里面,共同形成所述面向迭代式海量实时流计算方法的编程模型的物理环境。
可选地,所述拓扑结构由多层前后连接而成,网络层的个数、每一层的分析器个数、层与层之间消息元组的数据结构、层与层之间的数据流的流动方式按照不同业务需求动态调整。
可选地,所述拓扑结构按照批数据计算的方式进行。
可选地,所述批数据计算的方式,具体为:当前一批数据在环形编程模型进行多次迭代计算,满足结束计算阈值时候,当前数据落地,然后下一批计算数据才进入编程模型。
可选地,所述拓扑结构的具体流程为:首先需要建立模型实例,然后设置拓扑结构的层数,然后设置每一层分析器的个数,最后设置数据的流动模式和输入与输出。
本发明的有益效果是:
(1)专注于内存计算,满足实时性的要求,而实时性是很多业务系统的要求之一,例如在线推介系统、肇事车辆逃逸跟踪、在线游戏用户行为分析等等。
(2)适合海量数据下的数据挖掘、机器学习、智能计算等算法的训练学习。人工智能很多算法需要迭代式计算,例如RNN(recurrentneuralnetwork)的学习过程就涉及到训练数据的迭代计算,多层反馈神经网络的训练也涉及到参数的迭代反馈,在海量数据下,这样的训练学习在分布式环境下能将训练时间大大提高。
(3)本发明方法的拓扑结构由多层前后连接而成(如图1所示),网络层的个数、每一层的分析器个数、层与层之间消息元组的数据结构(如图2所示)、层与层之间的数据流的流动方式可以按照不同业务需求动态调整。
(4)按照“批数据计算”的方式进行。当前一批数据在此环形编程模型进行多次迭代计算,满足结束计算阈值时候,当前数据落地,然后下一批计算数据才进入此编程模型。迭代次数、从哪一层进入或者退出编程模型、每一批数据量大小等参数都是可以灵活改变的。
(5)能灵活对接多种消息队列(例如RabbitMQ、JMS、ActiveMQ、RocketMQ等)、HTTP连接、RPC、HBase等目前市场上常见的数据接口。为了防止数据接口异构性,本发明提供了一套统一的适配器;同时,为了监控迭代计算任务在分布式环境下的运行状态,本发明也提供了一套用于集群监控的API接口。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种面向迭代式海量实时流计算方法的编程模型示意图;
图2为本发明一种面向迭代式海量实时流计算方法的编程模型的数据流示意图;
图3为本发明一种面向迭代式海量实时流计算方法的编程模型物理集群示意图;
图4为本发明一种面向迭代式海量实时流计算方法的编程模型一个具体实施例的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610040257.9/2.html,转载请声明来源钻瓜专利网。