[发明专利]一种实时服务器故障诊断的方法在审
申请号: | 201610001572.0 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105677500A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 刘宝阳;刘冰 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/10 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 张靖 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 服务器 故障诊断 方法 | ||
技术领域
本发明涉及服务器故障诊断技术领域,具体涉及一种实时服务器故障诊断的方法。
背景技术
随着计算机技术、大数据等技术的发展,对服务器的稳定性可靠性提出的要求越来越高,服务器设计之初,虽然进行了较多的容错,可靠性设计,但是随着服务器系统的复杂度越来越高,难以避免会出现服务器故障,尤其是CPU,内存,PCIE设备故障,为了最大限度的降低对业务的影响,对维护人员提出了更高的要求,要求维护人员能够快速进行故障诊断,定位故障原因,鉴于故障发生现场一般无法保留,这就造成了维护人员难以快速诊断故障问题,势必造成客户业务的影响变大,如何快速诊断故障,定位问题原因,降低客户业务影响成为急需解决的问题。
发明内容
本发明要解决的技术问题是:为了解决上述问题,本发明提出了一种实时服务器故障诊断方法,通过实时故障状态监控,自动触发中断读取CPU特定故障状态寄存器并保存,达到了故障现场时刻诊断服务器的目的,避免故障现场不存在时无法诊断问题,提升了故障诊断的命中率,降低了维护成本和对客户业务的影响。
本发明所采用的技术方案为:
一种实时服务器故障诊断的方法,所述方法通过BMC(服务器基板管理控制单元)和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;所述方法诊断过程如下:
首先,BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;
其次,BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。
所述BMC对外提供标准网络接口提供下载功能。故障发生后现场未保留时,维护人员也可通过网络接口将BMC存储空间中的故障状态时刻CPU状态寄存器下载分析,快速定位故障原因。
所述方法针对内存ECC故障诊断过程如下:
1)将BMC和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;
2)BIOS通过SMBus总线检测到某个内存发生了ECC故障,BIOS将内存ECC故障信息通过LPC总线发送给BMC;
3)BMC读取到BIOS发送的内存ECC故障信息后,触发中断处理过程,BMC通过PECI总线读取事先约定好的CPU某些故障状态寄存器,并记录在BMC存储空间中;
4)维护人员通过BMC对外提供的标准网络接口下载存储在BMC中的寄存器状态信息,这些寄存器信息中能够明确指示出哪个位置的内存发生了哪种类型的ECC故障(可纠正ECC或不可纠正ECC),针对故障类型,维护人员对指定位置的内存进行维修或者更换操作,即可保证客户业务系统恢复工作。
本发明的有益效果为:
本发明实现了故障现场时刻实时诊断服务器故障的目的,提高了故障诊断的命中率,减少了故障定位的时间,有效降低了对客户业务的影响。和现有方法相比,能够帮助维护人员快速进行故障诊断,定位故障原因,并且显著提升了故障定位的命中率,从而减少了对客户业务的影响,减少了客户维护的成本,具有广泛的应用空间。
本发明方法能够降低服务器后期维护成本,不增加硬件费用,完全由BMC固件实现,所有X86架构服务器均可实现。
具体实施方式
下面结合具体实施方式对本发明进一步说明:
实施例1:
一种实时服务器故障诊断的方法,所述方法通过BMC(服务器基板管理控制单元)和BIOS通过LPC总线互联,BMC和CPU通过PECI总线互联,BIOS和内存、PCIE设备通过SMBus、PCIE总线互联;所述方法诊断过程如下:
首先,BMC通过LPC总线实时读取CPU、内存、PCIE设备故障状态;
其次,BMC检测到设备故障时,实时触发中断,中断处理过程通过PECI总线读取CPU的某些特定故障状态寄存器,并记录在BMC存储空间中。
实施例2:
在实施例1的基础上,本实施例所述BMC对外提供标准网络接口提供下载功能。故障发生后现场未保留时,维护人员也可通过网络接口将BMC存储空间中的故障状态时刻CPU状态寄存器下载分析,快速定位故障原因。
实施例3:
在实施例2的基础上,本实施例所述方法针对内存ECC故障诊断过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610001572.0/2.html,转载请声明来源钻瓜专利网。