[发明专利]一种Lustre并行文件系统错误报警方法及其系统有效
申请号: | 201210348309.0 | 申请日: | 2012-09-18 |
公开(公告)号: | CN102902615A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 刘冠川;王勇;秦东明;何牧君;杨亮;张新风;陈飞;刘超;吕永安 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F11/32 | 分类号: | G06F11/32;G06F11/34;G06F17/30;H04L29/06 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 lustre 并行 文件系统 错误 报警 方法 及其 系统 | ||
1.一种Lustre并行文件系统错误报警方法,其特征在于,所述方法包括如下步骤:
(1)监控模块对OSS日志进行周期性扫描;
(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;
(3)严重故障生成单独的报告供程序进一步分析,用于定位问题和自动处理;最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。
2.如权利要求1所述的报警方法,其特征在于,步骤(1)所述oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息。
3.如权利要求1所述的报警方法,其特征在于,步骤(2)所述故障信息包括存储故障信息或导致存储出现故障的信息。
4.如权利要求1所述的报警方法,其特征在于,步骤(3)所述定位过程包括如下步骤:
1)根据严重故障定位危险客户端,生成待重启节点列表;
2)判断危险客户端是否为僵死客户端,是则重启客户端,否则不予处理,待观察;
3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功的日志写入LAToolkit日志中。
5.如权利要求4所述的报警方法,其特征在于,步骤2)重启客户端通过向客户端的管理模块控制客户端的电源,将客户端重启。
6.如权利要求1所述的报警方法,其特征在于,步骤(3)所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。
7.如权利要求1所述的报警方法,其特征在于,步骤(3)所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。
8.一种Lustre并行文件系统错误报警系统,其特征在于,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端;
所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;
所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;
所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启。
9.如权利要求8所述的报警系统,其特征在于,所述存储客户端集群用于存储客户端集群挂载存储系统;
所述邮件服务器集群用于LAToolkit向外发送告警邮件;
所述LAToolkit客户端部署于Lustre存储服务器上,用于采集OSS日志及其他判断存储系统状态的信息;
所述LAToolkit服务端部署于Lustre元数据/管理服务器上,用于处理LAToolkit客户端收集到的信息和处理其他LAToolkit操作。
10.如权利要求8所述的报警系统,其特征在于,所述报警系统包括管理终端,所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210348309.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保垃圾焚烧炉
- 下一篇:一种双旋流式低热值燃气燃烧器