[发明专利]一种处理内存可恢复错误的系统、方法及介质在审
申请号: | 202110269537.8 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113064746A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 李道童;艾山彬;芦飞 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/32 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 250101 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 内存 可恢复 错误 系统 方法 介质 | ||
本发明公开了一种处理内存可恢复错误的系统,应用于服务器,包括:CPU、BMC及内存;CPU分别与所述内存及所述BMC连接;CPU用于监测所述内存是否产生可恢复错误,及存储所述内存的在位信息;BMC用于存储告警程序,当所述CPU监测到可恢复错误时,所述BMC解析内存的在位信息,定位出现可恢复错误的所述内存,通过上述方式,本发明能够通过内存的错误引脚与BMC的GPIO连接,然后BMC通过PECI与CPU的寄存器连接,使得处理可恢复错误无需占用业务数据带宽,安全性高、易升级维护的优点,对于服务器告警设计具有非常高的应用价值。
技术领域
本发明涉及服务器容错技术领域,特别是涉及一种处理内存可恢复错误的系统、方法及介质。
背景技术
当前,对于内存出现可恢复错误时,一般采取令内存的错误触发SMI中断,进入BIOS SMI的中断处理程序,分析与定位出现可恢复错误出现的内存的具体槽位的手段进行解决,然而,该技术手段有以下弊端:
其一:SMI中断频繁触发会严重影响服务器系统的性能,导致运行于服务器的上层业务出现卡顿;
其二:SMI中添加过多的错误处理程序,导致SMI的执行时间变长,使得服务器系统变得不稳定,且由于SMI是CPU的特权模式,不稳定的因素容易遭到黑客攻击,安全性变低。
其三:如果内存告警的策略发生变化,就需要修改SMI中断处理程序,如果要使新的告警策略生效就需要升级BIOS,但是BIOS的升级需要重启服务器系统,这在大规模的服务器集群中是难以接受的。
发明内容
本发明主要解决的是在定位故障部件的造成的可恢复问题过程中造成的服务器系统性能降低、安全性降低的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种处理内存可恢复错误的系统,应用于服务器,包括:CPU、BMC及内存;
所述CPU分别与所述内存及所述BMC连接;
所述CPU用于监测所述内存是否产生可恢复错误,及存储所述内存的在位信息;
所述BMC用于存储告警程序,当所述CPU监测到可恢复错误时,所述BMC解析内存的在位信息,定位出现可恢复错误的所述内存。
进一步,所述BMC还用于定位出现可恢复错误的所述内存后,根据所述告警程序,执行告警指示。
进一步,所述内存的错误引脚与所述BMC的GPIO引脚相连。
进一步,所述内存设有寄存器,所述寄存器存储所述在位信息。
进一步,所述BMC与所述寄存器通过PECI相连。
一种处理内存可恢复错误的方法,应用于服务器,包括以下步骤:
当内存出现可恢复错误时,CPU通过错误引脚通知;
执行告警程序,读取所述CPU的寄存器;
分析所述寄存器中的所述内存的在位信息;
根据所述在位信息定位出现可恢复错误的所述内存,并执行告警指示。
进一步,所述分析所述寄存器中的所述内存的在位信息的步骤进一步包括:所述在位信息包括所述内存对应的DIMM槽位。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的处理内存可恢复错误的方法步骤。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110269537.8/2.html,转载请声明来源钻瓜专利网。