[发明专利]一种监控和告警的方法和系统在审
申请号: | 201710430883.3 | 申请日: | 2017-06-09 |
公开(公告)号: | CN107707376A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 王景春;苗辉 | 申请(专利权)人: | 贵州白山云科技有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京名华博信知识产权代理有限公司11453 | 代理人: | 苗源,李冬梅 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监控 告警 方法 系统 | ||
本发明公开了一种监控与告警的方法和系统。该方法包括:步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;步骤3,基于所确定的异常指标出现的原因进行相应的告警。采用该方法和系统使得可以快速定位问题发生原因与影响范围。
技术领域
本发明涉及互联网领域,尤其涉及一种监控和告警的方法和系统。
背景技术
云服务提供商往往会存在众多的监控项以及不同的运营平台,每个监控项以及运营平台之间都存在着互相影响或彼此依赖的关系。每一个技术指标的恶化都会带来连锁反应,最终导致服务异常。如何能在众多的监控数据中快速定位到相关异常指标,以及如何能在某一个指标趋势异常时,自动将其他可能相互依赖的指标进行预警成为关键。
现有技术中对监控和告警的处理方式为对每个设备、每个监控指标独立告警,出现告警后,运维人员独立处理每项告警。即,现有的监控技术对每个业务指标的监控均是独立监控,此监控方式通常对每个监控指标指定独立的告警阈值,当监控指标的数据超过阈值时,将该项指标错误信息上报给相关运营维护人员进行处理。采用这种独立监控方法的现有技术存在如下缺点:
(1)所有的监控项目彼此独立,当某个指标不达标时,运维人员只会单独对该项指标进行处理,但进行处理的指标未必是问题的根源;
(2)当应用场景较多时,单独告警容易存在监控死角,未进行监控关联的应用场景有可能无法得到及时的处理,从而导致异常持续发生;
(3)对每个监控项独立处理,无法从宏观角度对问题进行汇聚,容易使处理人员将大量人力精力耗费在处理重复产生的告警信息当中。
现有的这种处理方式导致运维人员疲于处理每个独立告警,像一个救火员似的寻找并扑灭每个火星,却没办法及时从根源上解决故障,效率极其低下。因此,需要一种高效地对系统进行监控和告警的方法和系统。
发明内容
为了解决现有技术中对系统进行监控和告警的问题,提出了一种监控和告警的方法和系统。
根据本发明的一个方面,提供了一种监控与告警的方法,所述方法包括:
步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;
步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;
步骤3,基于所确定的异常指标出现的原因进行相应的告警。
其中,所述步骤2中确定一异常指标的相关联的指标至少包括下述方式之一:
方式一,提取该异常指标的信息中的出现时间,将出现在该出现时间前第一时间段至该出现时间后第二时间段之间的异常指标确定为与该异常指标相关联的指标;
方式二,提取该异常指标的信息中的所属运行模块和出现时间,将出现在该出现时间前第三时间段至该出现时间后第四时间段之间且属于该运行模块的其他异常指标和接近异常的指标确定为与该异常指标相关联的指标。
其中,所述步骤2中基于该异常指标和所述相关联的指标确定该异常指标出现的原因包括:
若采用所述方式一确定相关联的异常指标,基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标出现的原因为该异常指标出现的原因;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州白山云科技有限公司,未经贵州白山云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710430883.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种定位解析故障的方法和装置
- 下一篇:一种分析网络节点可用性的方法及系统