[发明专利]用于服务器集群的监控告警方法、系统、设备及存储介质在审
申请号: | 202210033756.0 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114356722A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 张豪杰;陈文俊 | 申请(专利权)人: | 平安壹钱包电子商务有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 王勇 |
地址: | 518033 广东省深圳市福田区福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 服务器 集群 监控 告警 方法 系统 设备 存储 介质 | ||
本发明涉及软件监控领域。本发明公开了一种用于服务器集群的监控告警方法,包括:对服务器集群的运行情况进行监控,获取所述服务器集群提供的多条告警消息;对多条所述告警消息进行记录,且是以每条告警消息关联的监控节点为单位记录;基于所述服务器集群的实际故障信息,从多条所述告警消息中确定多条正常告警消息;根据多条所述正常告警消息,确定多条所述告警消息中的多条误告警消息;对各所述误告警消息对应的记录进行分析,确定一个或多个目标监控节点;及调整各所述目标监控节点的告警消息数量。本发明提供的技术方案,可以自动化地过滤误告警消息。
技术领域
本发明涉及软件监控技术领域,尤其涉及一种用于服务器集群的监控告警方法、系统、计算机设备及计算机可读存储介质。
背景技术
随着计算机科学技术的发展,大数据存储和处理成为当前热点。例如,越来越多的公司和用户将各类文件、算力迁移到服务器集群中,从而实现云存储和云计算。
服务器集群的稳定性,云存储和云计算非常重要。例如,对于服务器集群中的一些严重的故障,比如数据库宕机、链路断开、业务异常、产线故障等,IT系统管理员以及对应的开发人员、监控人员都必须第一时间了解并尽快修复,以减少对产线正常业务的影响。由此,在部署服务器集群之后,通常会内置监控监控系统,监测异常事件,并基于异常事件将告警消息以邮件或短信形式发给指定的人或群组。
现有的监控告警系统,都是根据预设的各种业务需求来进行告警配置,从而对产线业务进行告警监控,告警的配置多种多样,比如连续几分钟业务下跌百分比、低于基线百分比、业务跌零等。如上所述,告警的形式通常通过邮件或者短信通知。
上述监控告警系统虽然具有通知功能,但在服务器较多时,服务器所面临的问题多种多样,因此引发地告警数量和种类繁多,进而容易引起告警泛滥,甚至误告警。
发明内容
有鉴于此,本发明实施例的目的是提供一种用于服务器集群的监控告警方法、系统、计算机设备及计算机可读存储介质,可以上述问题。
本发明实施例的一个方面提供了一种用于服务器集群的监控告警方法,包括:
对服务器集群的运行情况进行监控,获取所述服务器集群提供的多条告警消息;
对多条所述告警消息进行记录,且是以每条告警消息关联的监控节点为单位记录;
基于所述服务器集群的实际故障信息,从多条所述告警消息中确定多条正常告警消息;
根据多条所述正常告警消息,确定多条所述告警消息中的多条误告警消息;
对各所述误告警消息对应的记录进行分析,确定一个或多个目标监控节点;及
调整各所述目标监控节点的告警消息数量。
优选地,所述基于所述服务器集群的实际故障信息,从多条所述告警消息中确定多条正常告警消息,包括:
基于故障报告得到实际故障信息,所述实际故障信息包括故障时间段和与故障关联的监控节点;
基于故障时间段和与故障关联的监控节点,从多条所述告警消息中确定多条所述正常告警消息,正常告警消息的产生时间在所述故障时间段内,且携带故障关联的监控节点。
优选地,所述对各所述误告警消息对应的记录进行分析,确定一个或多个目标监控节点,包括:
对多条所述误告警消息对应的多条记录进行目标维度的分析,所述目标维度包括时间维度;
确定符合基于所述时间维度的目标规律的各个目标记录;
为各个目标记录对应的误告警消息打上第一标签,第一标签表示是有规律的误告警消息;
将关联携带所述第一标签的各误告警消息的监控节点,确定为目标监控节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安壹钱包电子商务有限公司,未经平安壹钱包电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210033756.0/2.html,转载请声明来源钻瓜专利网。