[发明专利]用于存储系统中的故障恢复的方法、装置和计算机程序产品有效
| 申请号: | 201810408962.9 | 申请日: | 2018-04-28 |
| 公开(公告)号: | CN110413218B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 卓保特;韩耕;董继炳;高健;徐鑫磊 | 申请(专利权)人: | 伊姆西IP控股有限责任公司 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;庞淑敏 |
| 地址: | 美国马*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 存储系统 中的 故障 恢复 方法 装置 计算机 程序 产品 | ||
本公开的实施例提供了用于存储系统的故障恢复的方法、装置和计算机程序产品。在一种方法中,响应于检测到存储器系统的磁盘出现故障,记录所述磁盘组的故障持续时间。在所述故障持续时间未达到预定就绪时间限制且所述磁盘组处于降级状态的情况下,保持所述磁盘组处于降级但未就绪状态。所述预定就绪时间限制短于逻辑单元号去抖时间限制,以避免数据不可用事件的发生。通过本公开的实施例,可以在避免数据不可用事件的同时显著缩短出现数据丢失事件的可能性。
技术领域
本公开的实施例涉及数据存储领域,并且更具体地,涉及用于存储系统中的故障恢复的方法、装置以及计算机程序产品。
背景技术
存储系统可以被构建在一个或多个物理存储设备之上,用于提供数据存储的能力。独立冗余磁盘阵列(RAID)是通过组合多个磁盘来实现数据冗余和提高存取速率的一种存储技术。
根据RAID技术,将利用多个独立磁盘组成一个大容量的磁盘组,而且采用了条带化技术来将数据输入/输出(I/O)负载均衡地分配到多个物理磁盘上。换句话说,一块连续数据块被均匀地分成几个较小的块,分别存储在多个磁盘上,这多个磁盘在逻辑上属于同一存储设备。因而,通过在多个磁盘上并行存储和读取数据,可以提高存储系统的吞吐量和存取速率。此外,在RAID技术中,通过利用数据校验提供容错功能,来提高系统的稳定性,在很多RAID模式中都提供有较为完备的校验/恢复机制,有些甚至直接是互相的镜像备份。
在出现诸如掉电或者磁盘被移除等硬件故障的情况时,RAID组会发生崩溃。在硬件故障被清除后,需要对磁盘进行重新上电。在故障恢复的过程中时,由于硬件限制,磁盘组中各个磁盘的上电时间和顺序是无法预先确定的,其原因主要在于下述两个方面。第一,RAID组中的磁盘可能位于不同的机器之中,因此不同机器的上电时间很可能是不同的;第二,为了避免电压毛刺(power glitch),机器通常不会在相同时间对其内部的磁盘上电,这意味即使是位于相同机器内部,磁盘也不会在相同的时间上电。因此在硬件故障清除后,各个磁盘驱动器开始再次在线的时间是不同的。这样,RAID组通常需要等待一个预定时间段以便所有磁盘驱动器都已恢复。而如果在该等待时间截止时,仍然不是所有的磁盘都在线,此时若无法对磁盘进行操作,则主机将会向用户报告数据不可用(data unavailable,DU)事件。为此,通常会在两个磁盘上线后不久(通常是5秒后),强制以降级状态对磁盘组进行存取操作。
然而,在降级状态下操作执行I/O操作时,可能会引发数据丢失事件。这是因为硬件故障可能会引起不完整读写,而在不完整读写意味这磁盘之间的数据不一致。而在降级状态下对不一致数据进行读写时,并非所有磁盘都在线,因此无法恢复尚未在线的磁盘的数据,这将会使得该磁盘处于数据丢失(Data Lost,DL)模式。而且,即便随后变为所有磁盘均在线的状态,也无法再进行恢复,因此最后上线的磁盘仍将处于DL模式。这意味着,尽管用户并未访问最后上线的磁盘,但是在所有磁盘都恢复后,仍然存在DL事件,这些会给用户带来不好的体验。
发明内容
在本公开的实施例中,提供了一种用于存储系统的故障恢复的技术方案。
在本公开的第一方面中,提供了一种用于存储系统的故障恢复的方法。该方法包括响应于检测到存储器系统的磁盘出现故障,记录所述磁盘组的故障持续时间。在所述故障持续时间未达到预定就绪时间限制且所述磁盘组处于降级状态的情况下,保持所述磁盘组处于降级但未就绪状态。所述预定就绪时间限制短于逻辑单元号去抖时间限制,以避免数据不可用事件的发生。
在本公开的第二方面中,提供了一种用于存储系统的故障恢复的装置。该装置包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使装置执行动作。所述动作包括响应于检测到存储器系统的磁盘出现故障,记录所述磁盘组的故障持续时间。所述动作还包括在所述故障持续时间未达到预定就绪时间限制且所述磁盘组处于降级状态的情况下,保持所述磁盘组处于降级但未就绪状态。所述预定就绪时间限制短于逻辑单元号去抖时间限制,以避免数据不可用事件的发生。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西IP控股有限责任公司,未经伊姆西IP控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810408962.9/2.html,转载请声明来源钻瓜专利网。





