[发明专利]双控制器磁盘阵列的动态故障检测系统有效
申请号: | 200910060553.5 | 申请日: | 2009-01-16 |
公开(公告)号: | CN101465769A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 冯丹;万亚平;曾令仿;陈俭喜;毛波;吴素贞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/24;H04L29/08 |
代理公司: | 华中科技大学专利中心 | 代理人: | 方 放 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 控制器 磁盘阵列 动态 故障 检测 系统 | ||
技术领域
本发明属于计算机存储技术领域,具体涉及一种双控制器磁盘阵列的动态故障检测系统。
背景技术
越来越多的证据表明,网络存储将成为继个人计算机和互联网络后第三次IT浪潮的引导者。个人计算机引领了第一次IT浪潮,互联网络把孤立的主机通过网络互联起来引领了第二次IT浪潮。第一次浪潮和第二次浪潮是以数据计算为中心,而网络存储将引领以数据存储为中心的第三次IT浪潮。为了保证存储系统的高可用性以及应对日渐频繁出现的故障,对存储系统的多个节点或者多个磁盘阵列控制器之间进行高效准确的检测已经成为必然。故障的频繁发生已经成为困扰科学家、工程技术人员和存储用户的主要问题之一,高效的动态故障检测算法和故障恢复机制是存储界的研究难点之一。在故障检测算法方面,针对存储系统高度动态异构、包丢失率及消息传输延迟较大等特点,故障检测在必须满足完整性、准确性等基本要求的基础上,还应该能够满足系统的及时性、可扩展性、灵活性等特殊需求,并据此提出了一些故障检测算法。
故障检测是使计算机系统发生故障后能及时有效恢复的前提。当前故障检测的方式分为静态心跳检测和动态心跳检测两种。一般的静态心跳故障检测的设计思想是:给定两个进程p和q,假定由p监控q,q会按照一个固定的时间间隔周期性的给p发送心跳消息;若在预定的时间段内p没有收到q的心跳消息,则p认为q故障。一般认为这是一种静态的心跳机制,它的心跳消息到达时间上限固定,不能满足网络存储系统的动态性需求。见J H Abawajy等.Fault detection service architecture for gridcomputing systems[G].In:Proc of ICCSA 2004,Lecture Note in ComputerScience 3044.Berlin:Springer,2004.107-115;而动态心跳故障检测根据最近的n次心跳消息到达的时间估计第n+1次的心跳消息到达时间,并据此判断故障的发生,一般采取加权平均方法或者线性回归的方法利用曲线拟和估计第n+1次心跳到达的时间。这些方法需要大量的样本信息或者样本需要满足某种概率分布特征,并不适合于存储系统的需求。见WChen,S Toueg,M K Aguilera.On the quality of service of failure detectors[J].IEEE Trans on Computers,2002,51(2):13-32.以及Xuanhua Shi,HaiJin,Zongfen Han,et al.ALTER:Adaptive failure detection services for grids[C].In:Proc of the 2005 IEEE Int’l Conf on Services Computing(SCC’05).Los Alamitos,CA:IEEE Computer Society Press,2005.355-358。
在现有的对数据存储的业务需求中,需要一种高效适用的故障检测系统,以提高存储系统的可靠性和可用性。
发明内容
本发明提出一种双控制器磁盘阵列的动态故障检测系统,解决现有动态心跳故障检测系统需要大量的样本信息或者对样本要求满足特定概率分布,存储系统的负载较大,计算过程复杂、不稳定,导致不适合于存储系统需求的问题。
本发明的双控制器磁盘阵列的动态故障检测系统,由并行的主控制器和从控制器构成,主控制器和从控制器分别包括CPU、Cache、IDE硬盘、串控制器、第一千兆网卡和第二千兆网卡,它们通过PCI总线互连,主控制器和从控制器还分别包括光纤通道适配器;主控制器和从控制器之间通过第二千兆网卡进行心跳故障检测,通过光纤通道适配器进行数据同步;其特征在于:
所述主控制器和从控制器上分别加载心跳模块、信息监控模块、故障切换模块和服务监控模块;
所述心跳模块根据本控制器服务监控模块发送过来的值设置心跳发送周期,然后周期性向对方控制器发送心跳消息,心跳消息包括每个控制器自检信息和心跳信息;
所述信息监控模块将对方控制器心跳模块发送过来的心跳消息到达时间放入时间窗中,达到设定的数量以后,利用无偏灰色预测模型,预测下一次心跳消息到达时间,并结合心跳到达时间修正值设定判断故障的时限;在判断故障的时限内没有收到对方控制器发送过来的心跳消息,则认为对方控制器失效,通知故障切换模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910060553.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络社区信息发送方法、服务器和系统
- 下一篇:刀片服务器二级供电系统