[发明专利]计算节点IO悬挂异常自动检测方法及装置在审
申请号: | 202110477121.5 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113032106A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 张志雄;魏亮;杨晓峰;许振峰 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 节点 io 悬挂 异常 自动检测 方法 装置 | ||
本发明公开了一种计算节点IO悬挂异常自动检测方法及装置,涉及云计算技术领域,其中该方法包括:实时采集计算节点上所有虚拟机的IO状态,所述IO状态包括返回状态和悬挂状态;每间隔固定时间,统计处于悬挂状态的IO数量及IO总数量,确定处于悬挂状态的IO数量与IO总数量的比值;根据所述比值与预设阈值的大小关系,确定计算节点IO是否处于异常状态。本发明可以及时发现计算节点IO异常,进而及时对异常计算节点采取有效处理措施,提升响应速度,加快故障恢复速度。
技术领域
本发明涉及云计算技术领域,尤其涉及一种计算节点IO悬挂异常自动检测方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近些年随着云计算技术的飞速发展其应用越来越广泛,一般云平台使用分布式存储作为存储资源供应虚拟机,由于分布式存储只能针对集群内自身故障进行检测,在计算资源与存储连通中断的情况下,分布式存储集群无法通过自身判断出异常计算节点,导致异常计算节点上的虚拟机IO长时间处于悬挂状态,IO悬挂状态的虚拟机心跳正常但已经无法正常对外提供服务。
目前针对计算节点IO悬挂等场景,一般云厂商没有很好的处理机制,基本上是靠告警发现,人工运维down掉计算节点,将上面的虚拟机疏散以此恢复环境,此种处理方式有响应速度慢、故障恢复难且效率低等众多问题。
发明内容
本发明实施例提供一种计算节点IO悬挂异常自动检测方法,用以及时发现计算节点IO异常,进而及时对异常计算节点采取有效处理措施,提升响应速度,加快故障恢复速度,该方法包括:
实时采集计算节点上所有虚拟机的IO状态,所述IO状态包括返回状态和悬挂状态;
每间隔固定时间,统计处于悬挂状态的IO数量及IO总数量,确定处于悬挂状态的IO数量与IO总数量的比值;
根据所述比值与预设阈值的大小关系,确定计算节点IO是否处于异常状态。
本发明实施例还提供一种计算节点IO悬挂异常自动检测装置,用以及时发现计算节点IO异常,进而及时对异常计算节点采取有效处理措施,提升响应速度,加快故障恢复速度,该装置包括:
采集模块,用于实时采集计算节点上所有虚拟机的IO状态,所述IO状态包括返回状态和悬挂状态;
统计模块,用于每间隔固定时间,统计处于悬挂状态的IO数量及IO总数量,确定处于悬挂状态的IO数量与IO总数量的比值;
确定模块,用于根据所述比值与预设阈值的大小关系,确定计算节点IO是否处于异常状态。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述计算节点IO悬挂异常自动检测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述计算节点IO悬挂异常自动检测方法的计算机程序。
本发明实施例中,通过实时采集计算节点上虚拟机的IO状态,可以及时了解每一个IO是否悬挂,并在间隔固定时间后,统计处于悬挂状态的IO数量与该计算节点IO总数量,通过悬挂状态的IO数量与IO总数量的比值与预设阈值的大小关系确定计算节点是否处于大量IO悬挂的异常状态,实现了云平台针对计算节点IO悬挂场景的自动检测与及时发现。这样一来,就可以及时对异常状态的计算节点进行有效处理,提升了响应速度,相对于人工运维的方式,可以大大提高了故障恢复效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110477121.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务的实现方法及装置
- 下一篇:基金交易处理结果导出方法及装置