[发明专利]一种同步监控CPU故障的方法及装置在审
申请号: | 202010170672.2 | 申请日: | 2020-03-12 |
公开(公告)号: | CN111459747A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 潘洁红;李德新;陈雪 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32;G06F11/34;G06F11/07;H04L12/24;H04L12/26 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 黄晓燕 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同步 监控 cpu 故障 方法 装置 | ||
本发明提供了一种同步监控CPU故障的方法及装置,方法包括通过操作系统获取监控对象的状态,得到系统日志;操作系统同时获取BMC的监控日志;对所述系统日志和监控日志进行分析,筛选出两个途径获取到的监控对象故障信息;对所述故障信息进行分类,根据分类结果进行故障处理。本发明通过分别获取OS监控的系统日志和BMC监控的监控日志。并对两种途径获取的故障进行分析,并针对不同的分析结果进行对应的故障处理。通过OS和BMC的同步监控,提高故障监控的准确性。同时对严重故障进行现场恢复,减轻运维人员的工作负担,同时缩短了故障恢复的时间,提高了数据中心交换机的稳定性。
技术领域
本发明涉及计算机故障监控及处理技术领域,尤其是一种同步监控CPU故障的方法及装置。
背景技术
目前白盒交换机已越来越受到企业的欢迎。白盒交换机和传统交换机相比,前者可以编程,而后者不可以编程。白盒交换机最大的亮点是具有强大的开放性,也就是说,对于用户而言,白盒交换机的操作系统、软件等方面都有更多的选择。
传统的交换机状态的监控通过OS(operating system,操作系统)进行,部分厂家采用BMC(Baseboard Management Controller,基板管理控制器)与OS分离的方式,使用BMC对交换机的状态进行独立监控。但是通过BMC监控存在误报的风险,
发明内容
本发明提供了一种同步监控CPU故障的方法及装置,用于解决现有故障监控不准确的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种同步监控CPU故障的方法,所述方法包括以下步骤:
通过操作系统获取监控对象的状态,得到系统日志;
操作系统同时获取BMC的监控日志;
对所述系统日志和监控日志进行分析,筛选出两个途径获取到的监控对象故障信息;
对所述故障信息进行分类,根据分类结果进行故障处理。
进一步地,所述监控对象包括CPU、内存、电源和风扇。
进一步地,所述系统日志包括CPU报错信息、显卡状态信息和驱动报错信息。
进一步地,所述操作系统通过IPMI带内方式获取BMC的监控日志;所述监控日志内包括BMC对机器状态的监控信息。
进一步地,所述对所述系统日志和监控日志进行分析,筛选出两个途径获取到的监控对象故障信息的具体过程为:
利用正则表达式对故障信息进行匹配,分别得到系统日志和监控日志的正则匹配项;
通过故障关键词进行再次匹配,得到系统日志和监控日志的关键词匹配项;
提取出系统日志和监控日志共有的匹配项。
进一步地,所述对所述故障信息进行分类,根据分类结果进行故障处理的具体过程为:
对所述共有的匹配项进行分类,分为一般故障和严重故障;
对所述严重故障进行系统重启操作;
对所述一般故障进行告警提示,并打印故障日志。
进一步地,对于所述系统日志和监控日志其一筛选出的匹配项,保留对应的故障信息并进行故障推送。
本发明第二方面提供了一种同步监控CPU故障的装置,所述装置包括:
第一日志获取模块,用于通过操作系统获取监控对象的状态,得到系统日志;
第二日志获取模块,用于获取BMC的监控日志;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010170672.2/2.html,转载请声明来源钻瓜专利网。