[发明专利]设备异常的检测方法及装置有效
申请号: | 201811145890.X | 申请日: | 2018-09-28 |
公开(公告)号: | CN110968443B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 郑晓;龙欣;谢峰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 设备 异常 检测 方法 装置 | ||
本发明公开了一种设备异常的检测方法及装置。其中,该方法包括:通过高速串行计算机扩展总线PCIe的流量控制特性监视PCIe终端设备的PCIe链路存储数据包的容量;在数据包的容量达到预设阈值的情况下,控制PCIe链路关闭,并触发错误报告消息,其中,错误报告消息是PCIe的错误报告机制触发的错误报告消息;通过错误报告消息触发驱动程序检测PCIe终端设备的状态,以确定PCIe终端设备是否异常。本发明解决了相关技术中AER驱动程序响应缓慢导致来不及处理修复硬件带来的宿主机的宕机风险的技术问题。
技术领域
本发明涉及设备检测领域,具体而言,涉及一种设备异常的检测方法及装置。
背景技术
异构计算产品在提供计算服务中,GPU/FPGA资源售卖都是通过直通方式提供给虚拟机使用。但是一旦这类硬件本身或者虚拟机内部对这些硬件的不当处理触发的硬件错误会导致PCIe接口不可用。因此异构计算产品的稳定性,可靠性,安全隔离一直是重中之重。然而GPU计算服务或者FPGA服务在某些特定情况下由于硬件不稳定和不可预知的原因导致访问GPU/FPGA直通设备硬件无响应,继而导致严重的系统错误,由于AER驱动程序响应缓慢导致来不及处理修复硬件带来的宿主机的宕机风险。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种设备异常的检测方法及装置,以至少解决相关技术中AER驱动程序响应缓慢导致来不及处理修复硬件带来的宿主机的宕机风险的技术问题。
根据本发明实施例的一个方面,提供了一种设备异常的检测方法,包括:通过高速串行计算机扩展总线PCIe的流量控制特性监视PCIe终端设备的PCIe链路存储数据包的容量;在所述数据包的容量达到预设阈值的情况下,控制所述PCIe链路关闭,并触发错误报告消息,其中,所述错误报告消息是所述PCIe的错误报告机制触发的错误报告消息;通过所述错误报告消息触发驱动程序检测所述PCIe终端设备的状态,以确定所述PCIe终端设备是否异常。
进一步地,在所述数据包的容量达到预设阈值的情况下,控制所述PCIe链路关闭,并触发错误报告消息之前,所述方法还包括:在所述PCIe终端设备系统发生错误无法响应PCIe链路的情况下,或,在所述PCIe终端设备对所述数据包的处理速度小于预设速度的情况下,所述数据包开始堆积;在所述数据包堆积到填满所述PCIe终端设备端PCIe链路存储数据包的容量的情况下,确定所述数据包的容量达到预设阈值。
进一步地,在所述数据包的容量达到预设阈值的情况下,控制所述PCIe链路关闭,并触发错误报告消息包括:在所述数据包的容量达到预设阈值的情况下,所述PCIe的中转站或所述PCIe的根组件无法向所述PCIe链路发送数据包;在所述PCIe的中转站或所述PCIe的根组件无法向所述PCIe链路发送数据包的情况下,所述PCIe的中转站控制所述PCIe链路关闭,并触发所述错误报告消息。
进一步地,通过所述错误报告消息触发驱动程序检测所述PCIe终端设备的状态,以确定所述PCIe终端设备是否异常包括:通过系统管理总线来读取所述PCIe终端设备的运行状态;若读取到所述PCIe终端设备的运行状态异常,则确定所述PCIe终端设备出现异常;若读取到所述PCIe终端设备是正常运行状态,则确定所述PCIe终端设备未出现异常。
进一步地,所述方法还包括:在确定所述PCIe终端设备出现异常的情况下,重置所述PCIe终端设备,以修复所述PCIe终端设备;在修复所述PCIe终端设备之后,或,在确定所述PCIe终端设备未出现异常的情况下,开启所述PCIe链路。
进一步地,所述PCIe终端设备为GPU设备或FPGA设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811145890.X/2.html,转载请声明来源钻瓜专利网。