[发明专利]一种流数据的分布式动态处理方法有效

专利信息
申请号: 201810006502.3 申请日: 2018-01-04
公开(公告)号: CN108228356B 公开(公告)日: 2021-01-15
发明(设计)人: 吴松;刘志毅;金海;陈飞 申请(专利权)人: 华中科技大学
主分类号: G06F9/50 分类号: G06F9/50
代理公司: 北京海虹嘉诚知识产权代理有限公司 11129 代理人: 何志欣;侯越玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 分布式 动态 处理 方法
【说明书】:

发明涉及一种流数据的分布式动态处理方法,至少包括:分析并预测用户流数据处理程序数据中至少一个数据特征块的执行模式,基于流数据的平均排队时延的大小以及排队时延的阈值来动态调整所述执行模式,和基于所述执行模式处理对应的至少一个所述数据特征块。本发明通过将流数据计算中不相关的流水线模式和微批模式进行关联,实现了两种模式的自动转换和数据处理,同时具有吞吐量高和延迟低的双重优势。

技术领域

本发明涉及流数据处理技术领域,尤其涉及一种流数据的分布式动态处理方法。

背景技术

在传统的数据处理流程中,先收集数据,然后将数据放到数据库中,在人们需要的时候通过数据库对数据进行查询,得到答案。这样的一个流程隐含了两个前提:1.数据是旧的。当人们对数据库做查询的时候,数据库的数据是过去某一个时刻数据的一个快照,数据已经过时了,并且很可能已经过期了。2.这样的流程中,需要人们主动的发出查询。也就是说,在人们查询的时候,数据才会被处理。但在某些时候,这两个前提都不存在。例如股票市场中,数据总是不断的产生,人们需要根据当前的数据实时的作出判断;由于数据量太大,人们希望设定某种条件,当数据满足这些条件时系统能够主动的通知人并且自动地进行操作。正是由于有这种需求,才会出现流数据处理。即根据人们设定的要求对实时信息流进行处理,并将结果保存或返回至发起端,这样人们能够实时掌握最新的数据动态。生产环境中很多场景需要使用实时流数据处理,比如实时购物推荐、社交数据实时分析、站点日志处理、智能电网的实时数据处理等。这些场景都具有数据量大、实时性要求高的特点。

当前针对流数据的流计算框架有两种执行方案:流水线模式和微批模式。流水线模式即是数据依次流过各个节点之后就完成处理,就像工厂流水线一样,每一个节点其操作是相对固定的,而流数据在这些节点中依照执行逻辑流动。流水线模式的优势在于它的表达方式。数据一旦到达立即处理,这些系统的延迟性远比其它微批处理要好。数据流模式将更多的资源用于保证低延迟,所以其数据吞吐量相应较低。微批模式即是将连续的数据流依照时间进行人为切分,分割成一个个小的批量数据,将数据放置在固定的节点中,然后由节点迭代操作逻辑完成计算,这样避免了大量数据在节点之间传输,具有较高吞吐量,但是由于有数据积累的过程,所以数据的处理延迟也会较大。

由上可以看到,当前的两种流数据分布式处理方案都有着自己的优缺点:流水线模式处理延迟低,但是吞吐量相应也低;微批模式吞吐量高,但是处理延迟相应也高。这两种处理方案都不能达到流数据处理的高吞吐量、低延迟的目标。即现有两种技术方案是处于对立面。同时,分析现有流处理逻辑发现,不同操作有不同的数据放大量。有些操作是数据放大形式,比如句子切分成单词这个操作,将一个句子切分成单词,造成了数据数量变大。还有的操作是数据缩小形式,比如过滤操作。这样,一个完整的流处理逻辑中,数据有放大有缩小。

本发明试图探寻一种流数据分布式处理方法,针对流数据在分布式处理下的高吞吐量和低延迟不能兼顾的问题,根据流数据处理逻辑执行前的预测和流数据处理过程中的外部数据源变化和集群执行能力变化,选择最适合的执行模式来执行该部分的流数据处理逻辑,在维持模式变化对用户透明的前提下,可有效地增加分布式流数据处理的吞吐量并降低分布式流数据处理的延迟,同时避免流数据重复处理,从而提高流数据分布式处理的性能。

发明内容

针对现有技术之不足,本发明提供一种流数据的分布式动态处理方法,其特征在于,所述方法至少包括:分析并预测用户流数据处理程序数据中至少一个数据特征块的执行模式,基于流数据的平均排队时延的大小以及排队时延的阈值来动态调整所述执行模式,基于所述执行模式处理对应的至少一个所述数据特征块。将不相关的流水线模式和微批模式关联并进行动态转换,实现了流数据计算的吞吐量高和延迟低的良好效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810006502.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top