[发明专利]一种线程故障处理方法、装置、介质及设备有效
申请号: | 202011314998.4 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112306781B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 杨文文 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/30 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 线程 故障 处理 方法 装置 介质 设备 | ||
本公开涉及计算机存储技术领域,本公开提供了一种线程故障处理方法、装置、介质及设备,应用于对象存储设备OSD进程,所述OSD进程包括第一OSD线程、第二OSD线程以及监控线程,所述方法包括:在第一OSD线程运行过程中执行打点操作并设置超时时间,其中,所述打点为获取并记录当前的时间点;由所述监控线程对所述第一OSD线程进行超时判断,若所述第一OSD线程存在线程超时,则确定所述第一OSD线程存在线程超时故障,并标记所述第一OSD线程的状态为线程故障状态;停止向所述第二OSD线程回复心跳信息。本公开解决现有线程超时报down机制中,CPU持续飙高导致的线程超时故障长时间未消除情况下OSD反复震荡的问题,使得存储集群osd状态更加稳定。
技术领域
本公开涉及计算机存储技术领域,更为具体来说,本公开涉及一种线程故障处理方法、装置、介质及设备。
背景技术
分布式存储集群是由多台廉价服务器组成的存储集群,它将集群中每台服务器直连的存储设备通过网络连接在一起以标准协议(例如iSCSI、CIFS协议)的方式对外提供存储资源。用户数据都是通过储存到存储集群的OSD当中,所以,一旦存储集群中的OSD出现异常,那么存储集群就有可能出现数据丢失等异常。因此,保障存储集群各个主机的OSD处于稳定、正常的状态显得尤为重要。
当CPU繁忙导致集群OSD进程内部线程超时,现有技术手段是在30s超时之后,OSD不再回复peers心跳,后续OSD会被peers报down;之后被报down的OSD会向MON申诉,请求重新up,MON便会将OSD标记为up。此种场景下,假如CPU飙高的故障尚未解除,那么OSD就会再次线程超时,会再次被报down,这样一来,OSD便会不断震荡。
当前,现有代码会在OSD再次恢复至up之前进行一次线程超时的判断,但是判断时刻,OSD仍然处于down的状态,此时的OSD上没有IO下发,所以即使此刻的线程超时检测通过之后,后续拉起该OSD后,待OSD上重新有IO时,仍旧会因为线程超时被再次报down。所以此时的检测依然不能避免后续的OSD震荡。
发明内容
为解决现有技术线程超时报down机制中,CPU持续飙高导致的线程超时故障长时间未消除情况下OSD反复震荡的技术问题。
为实现上述技术目的,本公开提供了一种线程故障处理方法,应用于对象存储设备OSD进程,所述OSD进程包括第一OSD线程、第二OSD线程以及监控线程,所述方法包括:
在第一OSD线程运行过程中执行打点操作并设置超时时间,其中,所述打点为获取并记录当前的时间点;
由所述监控线程对所述第一OSD线程进行超时判断,若所述第一OSD线程存在线程超时,则确定所述第一OSD线程存在线程超时故障,并标记所述第一OSD线程的状态为线程故障状态;
停止向所述第二OSD线程回复心跳信息。
进一步,还包括:
所述第二OSD线程确认所述第一OSD线程是否存在心跳超时故障;
若存在,则向监控器MON发送用于表征所述第一OSD线程存在心跳超时故障的故障消息,以使所述MON接收到所述故障消息后,若确认接收到的故障消息的次数超过预设的第一阈值,则将所述第一OSD线程的状态标记为down状态。
进一步,若确认所述第一OSD线程的状态被标记为down状态,获取第一OSD线程的属性信息,判断所述属性信息是否满足状态切换条件;
若满足则向监控器MON发起状态切换请求,以使所述MON将所述第一OSD线程的状态标记为up状态。
进一步,所述属性信息包括IO平均时延和IO返回数;
所述状态切换条件为:
所述IO平均时延不超过第二阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011314998.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置、设备及计算机存储介质
- 下一篇:一种能自动清洁的电脑主机