[发明专利]故障识别方法、装置及BMC有效
申请号: | 201910703044.3 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110489260B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 林震华;陈昊 | 申请(专利权)人: | 新华三技术有限公司成都分公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
地址: | 610000 四川省成都市高新区中国(四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 识别 方法 装置 bmc | ||
本公开提供一种故障识别方法、装置及BMC,BMC将服务器触发的故障事件日志按照不同的故障权重关联到相应的目标硬件,从而可以根据预设时长内硬件的硬件故障权重之和来判断该硬件是否出现故障。如此,BMC能够自行识别服务器中的具体硬件是否发生故障。
技术领域
本公开涉及故障检测技术领域,具体而言,涉及故障识别方法、装置及BMC。
背景技术
服务器作为数据中心的重要节点,不仅需要追求稳定可靠的性能,还需具有故障诊断功能。目前,服务器通常配置有基板管理控制器(Baseboard Management Controller,BMC),用于对服务器上各种硬件组件(如,CPU、风扇转速、系统温度、电压、电源、功耗等)的健康状况进行监控,当监控到异常时,会产生相应的事件日志并记录。
目前通常采用以下方式进行故障识别:第一,由运维或用户对记录的事件日志进行人工分析来排查故障部件;第二,将监控到的数据发送给外部独立系统进行实时分析,以识别服务器是否存在故障。
然而,第一种方式由于是人工分析,容易出现误判或漏判的情况;第二种方式需要将监控的数据发送到外网,提高了组网的复杂度。
发明内容
有鉴于此,本公开的目的之一在于提供一种故障识别方法、装置及BMC,以至少部分地改善上述问题。
为了达到上述目的,本公开采用如下技术方案:
第一方面,本公开提供一种故障识别方法,应用于服务器中的BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述方法包括:
当所述服务器触发目标故障事件日志时,确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重;
根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
第二方面,本公开提供一种故障识别装置,应用于服务器中的BMC,所述BMC预存有不同的故障事件日志与所述服务器的各个硬件的关联关系,所述关联关系包括每个所述硬件与关联的每个故障事件日志的第一关联权重;所述装置包括:
关联模块,用于当所述服务器触发目标故障事件日志时,确定与所述目标故障事件日志关联的目标硬件,以及每个目标硬件与所述目标故障事件日志关联的第一关联权重;
权重计算模块,用于根据每个目标硬件部件的第一关联权重得到该目标硬件部件与所述目标故障事件日志对应的硬件故障权重;
故障确定模块,用于根据所述服务器的硬件在预设时长内的硬件故障权重之和判断该硬件是否出现故障。
第三方面,本公开提供一种BMC,包括处理器及可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时促使所述处理器实现本公开第一方面提供的故障识别方法。
第四方面,本公开提供一种可读存储介质,其上存储有机器可执行指令,所述机器可执行指令被执行时,实现本公开第一方面提供的故障识别方法。
相较于现有技术,本公开提供的一种故障识别方法、装置及BMC,通过将服务器触发的故障事件日志按照不同的硬件故障权重关联到相应的目标硬件,从而可以根据服务器的硬件在预设时长内的硬件故障权重之和来判断该硬件是否出现故障。如此,BMC能够自行识别服务器中的具体硬件是否发生故障。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三技术有限公司成都分公司,未经新华三技术有限公司成都分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910703044.3/2.html,转载请声明来源钻瓜专利网。