[发明专利]一种分布式计算机系统故障检测机制无效
申请号: | 201310638110.6 | 申请日: | 2013-11-29 |
公开(公告)号: | CN103605592A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 李成文;张亚棣;王卫东;韩强;韩嫚莉;王纯委;何立军;刘宇;何小亚;杨涛;范超;张彬 | 申请(专利权)人: | 中国航空工业集团公司第六三一研究所 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 杨引雪 |
地址: | 710119 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 计算机 系统故障 检测 机制 | ||
技术领域
本发明涉及一种分布式计算机系统故障检测机制,属于嵌入式计算机系统设计技术领域。
背景技术
分布式计算机系统是采用统一标准模块、统一数据通讯网络、多层次的软硬件结构,是一种十分复杂而可靠性要求很高的计算机系统。这种复杂计算机系统故障定位率及定位速率是影响故障覆盖率的重要因素,因此分布式计算机需要设计一种系统故障检测机制一直监测着系统的健康状况,及时有效地发现各种各样的故障。
发明内容
本发明提供一种分布式计算机系统故障检测机制,用于对分布计算机系统的健康状况进行监测,一旦出现故障或错误,故障检测机制能立即发现,并向操作系统的健康监控服务报告故障,保证系统故障及时被发现处理,提高系统运行可靠性。
本发明的具体技术解决方案如下:
该分布式计算机系统故障检测机制,包括以下步骤:
1]按照进程级、分区级、模块级、系统级四个层次级别对分布式计算机系统的故障进行分类,设定进程级故障检测程序、分区级故障检测程序、模块级故障检测程序、系统级故障检测程序和对应的健康监控表;
2]上述步骤1中的四种故障检测程序通过操作系统的健康监控服务OS-HM收集故障信息,OS-HM依据故障代码调度故障处理服务程序,同时给通用管理系统的健康监控HM进程记录故障诊断信息。
上述步骤1中进程级故障检测程序具体是由进程健康监控进程通过信号机制向操作系统的健康监控服务OS-HM报告检测故障。
上述步骤1中分区级故障检测程序级包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障;分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
上述分区级故障检测程序包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
上述系统级故障检测程序包括故障管理FM、配置管理CM、健康管理HM的故障检测,由通用管理系统GSM依据系统健康监控表针对系统级故障进行检测,系统根据错误代码和错误事件发生时的系统状态级别查寻系统健康监控表,获得错误事件的派遣级别,据此级别派遣到不同的健康监控任务。
本发明的优点是:
1)整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障检测,可以降低故障检测复杂度;
2)故障检测程序分布在系统的各个地方,以被动和主动方式进行检测,提高系统故障检测速率和故障检测覆盖率;
3)故障检测信息报给健康监控服务集中管理。
附图说明
图1为分布式计算机系统故障检测机制原理图。
具体实施方式
该分布式计算机系统故障检测机制的原理是按照进程级、分区级、模块级、系统级四个层次级别的故障分被动和主动方式进行检测。被动方式故障检测是由系统中发生的故障触发了故障检测程序的执行程序代码,而主动方式的故障检测的是由故障检测程序主动检测到故障的发生。故障检测程序分布在系统的各个地方,一旦出现一个故障或错误,故障检测程序能立即发现,并向操作系统的健康监控服务报告故障。然后由操作系统的健康监控服务负责通知通用管理系统的健康监控进程,同时操作系统的健康监控服务也要给通用管理系统的健康监控进程提供故障诊断信息。
如图1所示,分布式计算机系统故障检测机制具体实施方式如下:
a.对分布式计算机系统各种各样的故障进行分类,按照进程级、分区级、模块级、系统级四个层次级别的设计故障检测程序和故障监控表;
b.进程级故障检测,由进程健康监控进程通过信号机制向操作系统的健康监控服务OS-HM报告检测故障;
c.分区级包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口;
d.模块级故障检测,由模块故障检测程序依据模块健康监控表针对模块级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。模块健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空工业集团公司第六三一研究所,未经中国航空工业集团公司第六三一研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310638110.6/2.html,转载请声明来源钻瓜专利网。