[发明专利]计算集群错误预测方法及相关设备有效
申请号: | 202011160403.4 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112306831B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 崔坤磊;刘羽 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 梁凯 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 集群 错误 预测 方法 相关 设备 | ||
本申请实施例提供了一种计算集群错误预测方法及相关设备,可以低成本、高效地进行计算集群的错误预测。该方法包括:根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个错误类型的遗留概率;根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
技术领域
本申请涉及计算集群技术领域,尤其涉及一种计算集群错误预测方法及相关设备。
背景技术
大规模科学计算需求的不断增长推动着超级计算机系统快速发展。随着计算机系统规模的增大,其组成部件不断增加、软硬件结构日益复杂、工作模式快速变化,用户数量日益增加,超级计算机系统平均无故障时间越来越短,可靠性问题日益突出。构成上述超级计算机系统的大型计算集群的集群管理和错误解决给集群管理员带来了巨大的挑战。
目前,计算集群的错误预测和管理解决方案是基于计算机集群各部件硬件功耗工况来统计分析集群的错误,但这种方法需要增加大量额外的硬件用于观测计量集群各节点芯片及整体的功耗,对于上万节点的计算集群这是一笔巨大的成本,同时也增加了计算集群实施的复杂度,对管理员也会增加额外的专业知识要求。
发明内容
本申请实施例提供了一种计算集群错误预测方法及相关设备,可以低成本、高效地进行计算集群的错误预测。
本申请实施例的第一方面提供了一种计算集群错误预测方法,包括:
根据所述计算集群的历史信息对所述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列所述计算集群的每个所述错误类型的发生数量,其中,所述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以所述预定时间为间隔,统计每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
可选地,所述错误类型包括:基础错误类、硬件错误及异常、系统级错误及异常、应用异常和节点异常,其中,前一个错误类型会直接影响与其紧邻的下一个错误类型的发生。
可选地,所述错误类型的遗留概率为所述错误类型的错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔的概率,所述错误类型遗留到下一个时间间隔错误会对下一个时间间隔内与所述错误类型紧邻的下一个错误类型的发生造成直接影响。
可选地,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量,具体包括:
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型矩阵对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
可选地,所述时间间隔为1周。
可选的,所述计算集群的历史信息的统计窗口期为1年。
可选的,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011160403.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钎焊夹管的板翅式换热器
- 下一篇:一种用于金属微丝拉拔的超声波振子