[发明专利]一种故障节点隔离方法及装置有效
| 申请号: | 202110198579.7 | 申请日: | 2021-02-23 |
| 公开(公告)号: | CN112988463B | 公开(公告)日: | 2022-08-30 |
| 发明(设计)人: | 赵弘 | 申请(专利权)人: | 新华三大数据技术有限公司 |
| 主分类号: | G06F11/14 | 分类号: | G06F11/14 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 故障 节点 隔离 方法 装置 | ||
本申请涉及分布式存储技术领域,特别涉及一种故障节点隔离方法及装置。该方法应用于监控节点,所述方法包括:接收第一节点上报的第二节点故障的目标信息;统计预设历史时长内上报所述第二节点故障的节点数量;若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。
技术领域
本申请涉及分布式存储技术领域,特别涉及一种故障节点隔离方法及装置。
背景技术
分布式存储系统是建立在网络之上的存储系统,分布式存储系统将数据分布在不同的节点上,节点间通过网络进行通信,如果其中某一个节点存在网络问题或者硬件故障,则其他正常节点无法和该问题节点进行正常通信,如果不及时将该有问题节点从系统中隔离,会影响整个分布式存储系统的业务。
为了避免部分节点故障影响整个分布式存储系统的业务,节点间会进行周期性检测,并将故障节点上报监控节点,之后监控节点根据上报的故障节点信息将故障节点从系统中隔离,从而保障系统业务的稳定性。
具体地,为了保证节点间可以正常通信,分布式存储系统节点间会进行周期性心跳检测,判断其他节点网络是否正常,如果某一节点(假设为A节点)发现无法和另外一节点(假设为B)正常通信,则A认为B节点故障并上报给监控节点;如果在一个周期内,某一个节点被其他节点报故障的次数达到隔离阈值,则监控节点认为该节点故障,并将该节点从系统中隔离,避免影响业务。隔离阈值不能设置的太高,避免故障节点无法及时隔离,同时不能设置太低,避免正常节点被误隔离出系统。通常分布式存储系统采用的隔离阈值threshold为:
threshold=(N+1)/2
其中,N为分布式系统的节点数,如果总共有3个节点,则隔离阈值为2。
然而,采用上述方法,当某一节点存在异常,无法与其他一些节点正常通信,但在心跳检测过程中被其他节点报故障的次数未达到隔离阈值的情况,这样就无法对该节点进行隔离,最终影响整个分布式存储系统的情况。
发明内容
本申请提供了一种故障节点隔离方法及装置,用以解决现有技术中存在的无法及时隔离故障节点的问题。
第一方面,本申请提供了一种故障节点隔离方法,应用于监控节点,所述方法包括:
接收第一节点上报的第二节点故障的目标信息
统计预设历史时长内上报所述第二节点故障的节点数量;
若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;
判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。
可选地,所述方法还包括:
若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则丢弃所述目标信息。
可选地,所述方法还包括:
将所述目标信息添加至所述故障记录表后,若判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。
可选地,
一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110198579.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:报文处理方法及装置





