[发明专利]一种流式数据处理自适应速率控制方法有效

专利信息
申请号: 201710011464.6 申请日: 2017-01-09
公开(公告)号: CN106648904B 公开(公告)日: 2020-06-12
发明(设计)人: 申彦明;李晓东 申请(专利权)人: 大连理工大学
主分类号: G06F9/50 分类号: G06F9/50;G06F16/2455;G06F16/182
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 自适应 速率 控制 方法
【说明书】:

发明属于计算机应用技术领域,一种流式数据处理自适应速率控制方法。该方法基于常用的数据接收消息队列和大数据分布式计算框架,根据当前计算集群的情况,通过预分片的方式调整数据处理的并行度,并通过自适应实时速率控制方法动态调整集群当前处理数据的数量,保证计算集群的稳定性,降低数据流式处理的延迟。随着“大数据”逐步深入到各个行业中,海量数据实时处理的应用范围逐步扩大。海量数据处理系统的实时性和稳定性是十分重要的。该方法在不增加计算集群硬件数量和任务编程复杂度的情况下,在一定程度上提升了计算集群的稳定性和处理效率。

技术领域

本发明属于计算机应用技术领域,涉及一种流式数据处理自适应速率控制方法。

背景技术

当前,随着技术的发展,数据量日益增加,“大数据”技术已经渗透到各行各业。目前,许多设备都会收集大量的数据,并希望对数据及时处理从而发掘其中的价值。例如智能手机、传感器、物联网设备、社交网络和在线事务系统产生的数据都需要不断的收集,通过实时的对数据进行分析,从而实现快速响应。因此,如何提升数据实时分析处理的能力也成为一个十分重要的问题。

当前一些主流的大数据实时处理框架有Spark,Storm,Flink等。Spark Streaming是对Spark核心API的扩展,它是按照一定的时间间隔将任务分成一系列短小的批处理作业进行处理。Storm是以单条记录为粒度进行处理的流式处理系统,拥有良好的实时性。Flink和Spark类似,其核心是流式数据流引擎,为数据流上的分布式计算提供了数据分发、通信和容错。但是和Spark Streaming相比,Storm的吞吐量较低,且实现复杂的统计需求较为困难。Flink的批处理和流式处理是两个独立的模块,无法进行结合。Spark Streaming因为使用Micro-batch处理数据,可以达到较高的吞吐率,在满足秒级的实时性要求同时可以达到较高的效率。

流式处理系统需要良好的实时性,并且在处理突发任务时能保证系统的稳定。通常,流式处理架构通过以下几种方式保证系统的实时性和稳定性:1.当处理的负载超过系统处理能力上限时,通过丢弃部分数据降低工作负载;2.动态资源管理;3.动态批次大小。但是丢弃数据通常会造成计算结果不准确,动态资源 管理为了针对数据处理洪峰需要更多的硬件资源,动态批次大小使得运行延迟变得不确定。

集群的状态不是一成不变的,因而人为设置的静态数据处理速率上限可能是不准确的,太小可能造成在处理突发的速率增加时无法充分利用计算资源,太大则可能导致系统接收过多的数据,造成计算集群的高延迟,从而导致系统不稳定。

发明内容

针对现有技术中存在的问题,本发明提供了一种海量数据的流式处理自适速率控制方法。该方法基于常用的数据汇总消息队列和流式数据分布式计算框架,根据当前计算集群的情况,通过预分片的方式调整数据处理的并行度,并通过自适应实时速率控制方法动态调整集群当前处理数据的数量,使得每一批输入数据的处理时间和批次间隔保持一致,保证计算集群的稳定性,降低数据流式处理的延迟。

用户可以利用本技术提供的方法实现如下功能:海量数据的实时接收和预处理;数据的实时处理;数据预分片及数据处理的并行化调整;实时处理数据数量的动态调整;处理结果输出到数据库中。

本发明的技术方案:

一种流式数据处理自适应速率控制方法,步骤如下:

第一步,数据接收和分区缓存

流式数据处理系统接收的数据,其格式由用户定义。要求一条完整的数据为一行,或者使用无歧义的特殊分隔符对数据进行分割。使用通用的消息队列作为数据源对数据进行汇总,并对数据按照分区规则将数据保存到消息队列中的某个分区中。本步骤使得消息队列中各个分片中的数据数量较为均匀,消息 队列中的数据供之后的步骤读取计算。

第二步,数据预分片

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710011464.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top