[发明专利]一种用于检查集群健康状态的方法和设备有效
申请号: | 201710205541.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN107391335B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 曹锋;林江彬 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;H04L12/24 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健;王路丰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 检查 集群 健康 状态 方法 设备 | ||
本申请的目的是提供一种用于检查集群健康状态的方法和设备,通过获取待检查的集群的相关信息;获取至少一个待检查的问题及其对应的检查规则;基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息,实现了对出现所述问题时对应的多个检查点的健康状况的监控,并提高了对集群中的所述问题对应的各个检查点的健康状况预判的准确度,同时也提高了对线上的分布式文件系统进行多检查点监控的实时性,并达到提前进行多个检查点进行报警的目的。
技术领域
本申请涉及计算机领域,尤其涉及一种用于检查集群健康状态的技术。
背景技术
在分布式集群报警系统中,随着用户设备的海量数据的暴增,分布式文件系统(Distributed File System)的规模也在不断增长;但随着分布式文件系统所在集群的老化和业务的不断增长,各种问题层出不穷,且往往一个集群节点中的单个服务器出现的单点问题都有可能积累而导致很大的故障;然而当问题突发时依靠报警系统所在的平台进行报警,以唤醒维护人员进行调查并执行解决问题的方法可能会因为错过解决问题的最佳时间而引发故障。
现有技术中,分布式集群报警系统分别对各个集群节点下的单个服务设备的硬件(例如,内存,硬盘或软件实体中的局部模块)和操作系统进行单点报警,在单点出现问题时进行报警,并将大量的报警由服务设备进行简单的异常报警信息的获取后统一报警给维护人员。由于现有技术中的分布式集群报警系统只在单点出现问题时进行报警,故在报警前若报警阈值设置过松有可能导致引发故障,而报警阈值设置过严会造成大量的误报;又由于现有技术中的分布式集群报警系统主要针对服务设备的硬件和操作系统的单点进行报警,并没有对分布式文件系统的可用性、性能及服务质量等做出判断,造成片面性地对整个分布式文件系统进行报警,导致报警准确度低;又由于现有技术中的分布式集群报警系统仅是简单地将大量的异常报警信息获取并统一报警给维护人员,以待维护人员进行调查并解决问题,导致报警准确度低且实时性差。
因此,现有技术中采用分布式集群报警系统对分布式文件系统中的各集群节点下的单个服务设备的硬件和操作系统出现的问题进行单点报警,导致报警准确度低且实时性差。
发明内容
本申请的目的是提供一种用于检查集群健康状态的方法与设备,以解决现有技术中采用分布式集群报警系统对分布式文件系统中的各集群节点下的单个服务设备的硬件和操作系统出现的问题进行单点报警,导致报警准确度低且实时性差的问题。
根据本申请的一个方面,提供了一种用于检查集群健康状态的方法,包括:
获取待检查的集群的相关信息;
获取至少一个待检查的问题及其对应的检查规则;
基于所述集群的相关信息,从所述集群中获取与所述检查规则相关的检查点的监控数据,并对所述监控数据进行聚合处理以获得处理结果;
基于所述处理结果调取对应所述问题,并基于所述问题的相关信息生成并反馈健康预警信息。
进一步地,对所述监控数据进行聚合处理以获得处理结果包括:
基于所述待检查的问题对应的检查规则,对每一所述检查点的监控数据分别进行处理,以获取至少一个发生监控数据异常的所述检查点并反馈处理结果。
根据本申请的一个方面,提供了一种用于检查集群健康状态的方法,还包括:
创建问题规则库,所述问题规则库包括至少一个问题及其对应的检查规则;
对所述问题规则库中的问题及其所对应的检查规则进行更新。
进一步地,对所述问题规则库中的问题及其所对应的检查规则进行更新包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710205541.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种共识方法及装置
- 下一篇:针对数据库的指令处理方法及装置