[发明专利]一种流数据的分布式动态处理方法有效
申请号: | 201810006502.3 | 申请日: | 2018-01-04 |
公开(公告)号: | CN108228356B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 吴松;刘志毅;金海;陈飞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 何志欣;侯越玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分布式 动态 处理 方法 | ||
本发明涉及一种流数据的分布式动态处理方法,至少包括:分析并预测用户流数据处理程序数据中至少一个数据特征块的执行模式,基于流数据的平均排队时延的大小以及排队时延的阈值来动态调整所述执行模式,和基于所述执行模式处理对应的至少一个所述数据特征块。本发明通过将流数据计算中不相关的流水线模式和微批模式进行关联,实现了两种模式的自动转换和数据处理,同时具有吞吐量高和延迟低的双重优势。
技术领域
本发明涉及流数据处理技术领域,尤其涉及一种流数据的分布式动态处理方法。
背景技术
在传统的数据处理流程中,先收集数据,然后将数据放到数据库中,在人们需要的时候通过数据库对数据进行查询,得到答案。这样的一个流程隐含了两个前提:1.数据是旧的。当人们对数据库做查询的时候,数据库的数据是过去某一个时刻数据的一个快照,数据已经过时了,并且很可能已经过期了。2.这样的流程中,需要人们主动的发出查询。也就是说,在人们查询的时候,数据才会被处理。但在某些时候,这两个前提都不存在。例如股票市场中,数据总是不断的产生,人们需要根据当前的数据实时的作出判断;由于数据量太大,人们希望设定某种条件,当数据满足这些条件时系统能够主动的通知人并且自动地进行操作。正是由于有这种需求,才会出现流数据处理。即根据人们设定的要求对实时信息流进行处理,并将结果保存或返回至发起端,这样人们能够实时掌握最新的数据动态。生产环境中很多场景需要使用实时流数据处理,比如实时购物推荐、社交数据实时分析、站点日志处理、智能电网的实时数据处理等。这些场景都具有数据量大、实时性要求高的特点。
当前针对流数据的流计算框架有两种执行方案:流水线模式和微批模式。流水线模式即是数据依次流过各个节点之后就完成处理,就像工厂流水线一样,每一个节点其操作是相对固定的,而流数据在这些节点中依照执行逻辑流动。流水线模式的优势在于它的表达方式。数据一旦到达立即处理,这些系统的延迟性远比其它微批处理要好。数据流模式将更多的资源用于保证低延迟,所以其数据吞吐量相应较低。微批模式即是将连续的数据流依照时间进行人为切分,分割成一个个小的批量数据,将数据放置在固定的节点中,然后由节点迭代操作逻辑完成计算,这样避免了大量数据在节点之间传输,具有较高吞吐量,但是由于有数据积累的过程,所以数据的处理延迟也会较大。
由上可以看到,当前的两种流数据分布式处理方案都有着自己的优缺点:流水线模式处理延迟低,但是吞吐量相应也低;微批模式吞吐量高,但是处理延迟相应也高。这两种处理方案都不能达到流数据处理的高吞吐量、低延迟的目标。即现有两种技术方案是处于对立面。同时,分析现有流处理逻辑发现,不同操作有不同的数据放大量。有些操作是数据放大形式,比如句子切分成单词这个操作,将一个句子切分成单词,造成了数据数量变大。还有的操作是数据缩小形式,比如过滤操作。这样,一个完整的流处理逻辑中,数据有放大有缩小。
本发明试图探寻一种流数据分布式处理方法,针对流数据在分布式处理下的高吞吐量和低延迟不能兼顾的问题,根据流数据处理逻辑执行前的预测和流数据处理过程中的外部数据源变化和集群执行能力变化,选择最适合的执行模式来执行该部分的流数据处理逻辑,在维持模式变化对用户透明的前提下,可有效地增加分布式流数据处理的吞吐量并降低分布式流数据处理的延迟,同时避免流数据重复处理,从而提高流数据分布式处理的性能。
发明内容
针对现有技术之不足,本发明提供一种流数据的分布式动态处理方法,其特征在于,所述方法至少包括:分析并预测用户流数据处理程序数据中至少一个数据特征块的执行模式,基于流数据的平均排队时延的大小以及排队时延的阈值来动态调整所述执行模式,基于所述执行模式处理对应的至少一个所述数据特征块。将不相关的流水线模式和微批模式关联并进行动态转换,实现了流数据计算的吞吐量高和延迟低的良好效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810006502.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:任务处理方法及装置、任务调度方法及装置
- 下一篇:一种内存清理方法及移动终端
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置