[发明专利]分布式存储系统硬盘挂住故障检测、处理方法及装置在审
申请号: | 201610212740.0 | 申请日: | 2016-04-07 |
公开(公告)号: | CN107273231A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 王勇;赵树起;朱家稷;董乘宇 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 存储系统 硬盘 故障 检测 处理 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式存储系统硬盘挂住故障检测、处理方法及装置。
背景技术
分布式存储系统是构建在本地文件系统之上的存储系统,其将数据分散存储到多个硬盘上。对于分布式存储系统而言,从本地文件系统到各个硬盘内部的整个链路上都有可能出现故障,其中硬盘挂住(hang up)故障,表现为硬盘无法响应正常的操作,所有对该硬盘的输入输出操作都因为整个链路没有应答而不能中止。挂住的硬盘如果处理不当可能会导致整个访问进程失去响应,进而导致使该进程所管理的数据都无法访问、前端请求延时变高、系统负载增加、数据可用性降低等问题。故及时检测到硬盘挂住故障,降低该故障造成的影响,是保证分布式存储系统性能的一个关键问题。
现有的硬盘挂住故障处理方法主要包括以下四种:(1)使用硬盘厂商提供的工具向硬盘发出下线指令,硬盘收到下线指令后停止工作,从而使对硬盘的访问能够返回,终止硬盘挂住状态;(2)使用硬盘的硬件开关停止硬盘工作,通常是在现有硬盘上增加一个部件,通过该部件直接拉低硬盘的电压,使硬盘掉电,从而终止硬盘挂住状态;(3)重启机器,重启后,硬盘状态被重置,但只存在改善硬盘挂住状态的可能性;(4)直接重启进程,新的进程会规避使用挂住的硬盘。
但是上述处理方法都存在一定的缺陷,包括需要依赖额外的辅助工具、影响系统资源可用性等。具体的,上述方法(1)需要依赖于硬盘厂商提供的工具,且不适用于硬盘无法接受下线指令的情况,实际应用成功率较低;方法(2)需要在硬盘上增加新硬件(即硬件开关),导致硬盘开发和维护的成本增加,且适用范围窄;方法(3)引入了人为干预,在机器重启期间,机器本身和存储系统的可用性降低,而且存在重启失败的可能,即使重启成功,也需要存储系统能够规避对挂住的硬盘的使用,对存储系统的要求较高;方法(4)中原有进程因为有线程挂住,无法释放内存资源,使得系统内存占用高,即使重启了系统的可用资源也会降低。因此,亟需一种成功率高、适用范围广、对系统可用性影响小的硬盘挂住故障处理方法。
发明内容
本申请要解决的第一个技术问题是,在不依靠辅助工具的前提下实现分布式存储系 统硬盘挂住故障的自动检测;为此,本申请提供一种分布式存储系统硬盘挂住故障检测方法及装置。
本申请第一方面,提供一种分布式存储系统硬盘挂住故障检测方法,包括:
检测目标硬盘对应的各个访问请求的执行时间;
判断是否存在执行时间大于对应的预设阈值的时滞请求;
如果存在所述时滞请求,则确定所述目标硬盘出现挂住故障。
结合第一方面,在本申请第一方面第一种可行的实施方式中,所述故障检测方法还包括:
创建所述目标硬盘对应的IO线程组;
通过所述IO线程组读取并处理所述目标硬盘对应的各个访问请求,以完成对所述目标硬盘的读写操作。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实施方式中,检测目标硬盘对应的各个访问请求的执行时间,包括:
检测目标硬盘的输入队列中处于队头位置的访问请求的执行时间。
本申请第二方面,提供一种分布式存储系统硬盘挂住故障检测装置,包括:
检测单元,用于检测目标硬盘对应的各个访问请求的执行时间;
比较单元,用于判断是否存在执行时间大于对应的预设阈值的时滞请求,如果存在所述时滞请求,则确定所述目标硬盘出现挂住故障。
结合第二方面,在第二方面第一种可行的实施方式中,所述故障检测装置还包括:
进程管理单元,用于创建所述目标硬盘对应的IO线程组,并通过所述IO线程组读取并处理所述目标硬盘对应的各个访问请求,以完成对所述目标硬盘的读写操作。
结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第二种可行的实施方式中,为实现检测目标硬盘对应的各个访问请求的执行时间,所述检测单元具体被配置为:
检测目标硬盘的输入队列中处于队头位置的访问请求的执行时间。
由以上技术方案可知,本申请实施例通过检测目标硬盘对应的访问请求的执行时间来判断该目标硬盘是否出现挂住故障,可以及时发现目标硬盘的挂住故障;且该挂住故障检测方式既不需要依赖硬盘厂商提供检测工具,也不需要在硬盘上增加新硬件,也不需要人为干预,简单易行,不会影响硬盘的生产及使用成本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610212740.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:强制重置微控制器的方法
- 下一篇:一种企业信息化系统自愈调度方法