[发明专利]一种数据的处理方法和物理机有效
申请号: | 201610723610.3 | 申请日: | 2016-08-25 |
公开(公告)号: | CN107783721B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 张赵中;朱芸;黄崴 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 处理 方法 物理 | ||
本发明公开了一种数据的处理方法和物理机,用于执行器在对数据流的数据进行处理的过程中,减少数据的丢失。本发明实施例提供一种数据的处理方法,方法应用于流系统中的物理机,物理机包括第一执行器,方法包括:根据第一执行器处理数据的历史信息,预测第一执行器待处理的数据流在第一时间段内的流量,从而得到数据流在第一时间段内的流量预测信息,历史信息包括第一执行器在一历史时间段内所处理的数据的流量信息,流量预测信息包括第一时间段内多个时刻的流量的预测值;在流量预测信息中包括超过阈值的预测值的情况下,将第一执行器获取数据的速率从第一速率降低到第二速率;使用第二速率获取待处理的数据流的第一数据集合。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据的处理方法和物理机。
背景技术
近年来,一种新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流建模。这些应用的实例包括金融服务、网络(英文名称:Web)应用、电信数据管理、生产制造、传感检测等等。这些数据以大量、快速、时变的数据流持续到达,由此产生了一些基础性的新的研究问题,例如产生了数据流计算的研究。
数据流计算遵循如下的原则:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批后再进行处理。
数据流计算是基于流式数据处理模型进行的,数据进入一级级的算子进行处理后再输出。在实际使用过程中,流系统中的数据流动很不均匀,具有波动性,不够平缓均匀。如图1-a所示,为数据流的流速不均匀状态示意图,源头从外界接收数据的流速不均匀,以及中间算子产生数据的流速不均匀。接下来对上述两个情况进行详细说明,一种是因为进入流系统的原始数据流本身流速就不均匀,某一段时间可能速度很快,但是到了另一段时间速度又很慢。例如,部署了一套流系统用于检测用户打电话上网的流量使用情况,在夜晚忙时阶段流量要远远大于凌晨时段,春节期间的流量远大于平时的流量,这是人的活动规律决定的,不以人的意志为转移的。另一种原因是,某些算子处理的逻辑决定的。例如,某一个算子专门用于统计每5分钟每个用户的流量使用情况,在5分钟的时间点到来时,会有大量的数据输出,而在中间的时间节点没什么输出,这是由该算子的处理逻辑决定的。在以上两种原因的作用下,在流量大的时候,数据流的流速可能超过了流系统的最大处理能力,这时如果不采取些措施的话,就会导致数据的丢失,影响结果的准确性。如图1-b所示,为实际流速的变化曲线示意图,从一段长时间的维度来看的话,数据流的平均流速是不超过流系统的最大处理能力的。因此在这样的前提下,需要保证某些时刻的大流量数据不丢失,这样就引出了流速控制问题。
流控问题是流技术中一个很重要的技术问题,因为几乎所有的流系统都会遇到上述的短时大流量问题,也就是数据尖锋,如果不采取一些流控措施的话,这段时间必然会发生数据的丢失,在一些数据可靠性要求高的场合,数据的丢失对可靠性的影响不可忽视,例如金融领域,是完全不能接受的。
请参阅图2所示,为现有技术中流处理系统采取的一种流控方案示意图,每一个流量管理单元(英文全称:Stream Manager,英文简称:SM)管理有数据源算子(图中以spout示例说明)和数据处理算子(图中以bolt示例说明),SM对它管辖下的数据处理算子具有监控的能力,当某一个bolt发生拥塞时,SM就会感知到,这时它就会发送停止消息通知其他的SM,当其他的SM收到该消息时,就会给本地的数据源算子施加压力,从而使得数据源算子停止发送数据。当拥塞的bolt不再拥塞时,该bolt所在的SM就会给其他的SM发送恢复消息,当其他的SM收到这个恢复消息后,就会通知本地的spout恢复数据的发送。
在上述流控方案中,spout是否拥塞需要SM感知,然后通知其他的SM采取动作,这必然会存在一定的延迟,而在延迟的时间段内已经进入流系统的数据就极有可能发生丢失,从而影响流处理系统中的数据可靠性
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610723610.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置