[发明专利]流式计算系统及流式计算系统的日志数据处理方法在审
申请号: | 201910533906.2 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110245120A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 邢越;赵得润;詹洋;汪婷 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/18 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志数据 日志 计算系统 流式 进度监控 消息系统 日志采集模块 日志处理模块 状态监控模块 关联 上报 标识关联 监控日志 日志处理 数据处理 消息队列 自动推进 解析 存储 水位 采集 发送 全局 申请 | ||
本申请实施例公开了流式计算系统及其日志处理方法。流式计算系统包括:日志采集模块,采集日志产出端产出的日志数据并发送至消息系统;消息系统,将日志数据存储在消息队列中;状态监控模块,监控日志产出端的状态并上报至进度监控模块;日志处理模块,从消息系统获取日志数据并解析出产出日志数据的日志产出端的标识及与日志产出端的标识关联的日志数据产出时间,将日志产出端的标识和关联的日志数据产出时间上报至进度监控模块;进度监控模块,根据日志产出端的标识和关联的日志数据产出时间、以及日志产出端的状态,确定流式计算系统中未被处理的日志数据的最早产出时间。该流式计算系统实现了全局水位的自动推进。
技术领域
本申请实施例涉及计算机技术领域,具体涉及数据处理技术领域,尤其涉及流式计算系统及其日志数据处理方法。
背景技术
在流式计算的场景中,水位用来标志系统中未完成的数据的最早的时间戳。水位落盘是指按照窗口大小(例如5分钟)把来自流式传输系统中的数据落盘到该窗口对应的文件夹中,并在窗口结束后,标记该窗口结束,文件中的数据完备。在窗口结束后,下游消费者可以对窗口内的数据进行进一步的处理。
然而,由于系统环境较为复杂,一些日志产出端的状态可能出现异常,网络也可能发生抖动,使得日志数据无法准确地落盘至相应的窗口中,由此导致系统的全局水位难以准确测定,水位难以推进。
发明内容
本申请实施例提出了流式计算系统及其日志数据处理方法、电子设备和计算机可读介质。
第一方面,本公开的实施例提供了一种流式计算系统,包括:日志采集模块,被配置为采集日志产出端产出的日志数据,将日志数据发送至消息系统;消息系统,被配置为将日志采集模块传输的日志数据存储在消息队列中;状态监控模块,被配置为监控日志产出端的状态,将日志产出端的状态上报至进度监控模块;日志处理模块,被配置为从消息系统获取日志数据并解析出产出日志数据的日志产出端的标识及与日志产出端的标识关联的日志数据产出时间,将日志产出端的标识和关联的日志数据产出时间上报至进度监控模块;进度监控模块,被配置为根据日志处理模块上报的日志产出端的标识和关联的日志数据产出时间、以及监控模块上报的日志产出端的状态,确定流式计算系统中未被处理的日志数据的最早产出时间。
可选地,上述进度监控模块被配置为根据状态监控模块上报的日志产出端的状态,确定出连续预设个预定时间周期内状态异常的日志产出端为异常日志产出端,将除异常日志产出端外的其他日志产出端确定为正常日志产出端,基于流式计算系统中各正常日志产出端的标识及各正常日志产出端的标识关联的日志数据产出时间,确定流式计算系统中未被处理的日志数据的最早产出时间。
可选地,上述进度监控模块被配置为:响应于根据状态监控模块上报的日志产出端的状态确定异常日志产出端的状态恢复正常,基于各正常日志产出端的日志数据产出时间更新流式计算系统中未被处理的日志数据的最早产出时间。
可选地,上述状态监控模块被配置为基于日志产出端的日志上报时间确定日志产出端的状态是否异常。
可选地,上述进度监控模块还被配置为向流式计算系统的下游数据处理系统通知流式计算系统中未被处理的日志数据的最早产出时间,以供流式计算系统的下游数据处理系统对流式计算系统中未被处理的日志数据的最早产出时间之前的日志数据进行处理。
第二方面,本公开的实施例提供了一种流式计算系统的日志数据处理方法,包括:监控流式计算系统中的日志产出端的状态;从消息系统获取日志数据并解析出产出日志数据的日志产出端的标识及与日志产出端的标识关联的日志数据产出时间,其中,消息系统将日志产出端的日志数据存储在消息队列中;根据产出日志数据的日志产出端的标识和关联的日志数据产出时间、以及日志产出端的状态,确定流式计算系统中未被处理的日志数据的最早产出时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910533906.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件整理方法及存储系统
- 下一篇:文件管理方法、系统以及电子设备