[发明专利]一种Lustre并行文件系统错误报警方法及其系统有效
申请号: | 201210348309.0 | 申请日: | 2012-09-18 |
公开(公告)号: | CN102902615A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 刘冠川;王勇;秦东明;何牧君;杨亮;张新风;陈飞;刘超;吕永安 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F11/32 | 分类号: | G06F11/32;G06F11/34;G06F17/30;H04L29/06 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 lustre 并行 文件系统 错误 报警 方法 及其 系统 | ||
技术领域
本发明涉及计算机领域,具体涉及一种Lustre并行文件系统错误报警方法及其系统。
背景技术
大规模超算中心一般环境比较复杂,当Lustre并行文件系统发生故障时,关联的因素非常多,通过人工的方法去查找日志等信息来定位问题,通常会耗费大量的时间,故障无法及时得到解决。目前Lustre的监控软件主要用LMT。LMT能够通过Lustre的一些统计信息接口较好的呈现Lustre的历史使用状况,如当前读写速率、空间使用率等等。
LMT能提供一些文件系统IO流量、使用率等信息的统计,但无法进行对系统运行环境、Lustre日志等信息的分析和报警,对于Lustre文件系统运行维护并没有起到太大作用。当Lustre文件系统出现故障时仍然需要较长的时间去分析定位问题,如果管理员不在现场,故障就难以及时发现和解决。
发明内容
针对现有技术的不足,本发明提供一种Lustre并行文件系统错误报警方法及其系统,可以及时的发现故障并通知管理员,减少经济损失。
本发明提供的一种Lustre并行文件系统错误报警方法,其改进之处在于,所述方法包括如下步骤:
(1)监控模块对OSS日志进行周期性扫描;
(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;
(3)严重的故障生成单独的报告供程序进一步分析,用于定位问题和自动处理。最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。。
其中,步骤(1)所述oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息。
其中,步骤(2)所述故障信息包括存储故障信息或导致存储出现故障的信息。
其中,步骤(3)所述定位过程包括如下步骤:
1)根据严重故障定位危险客户端,生成待重启节点列表;
2)判断危险客户端是否为僵死客户端,是则重启客户端,否则不予处理,待观察。
3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功日志写入LAToolkit日志中。
其中,步骤2)重启客户端通过向客户端的管理模块控制客户端的电源,将客户端重启。
其中,步骤(3)所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。
其中,步骤(3)所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。
本发明基于另一目的提供的一种Lustre并行文件系统错误报警系统,其改进之处在于,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端;
所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;
所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;
所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启。
其中,所述存储客户端集群用于存储客户端集群挂载存储系统;
所述邮件服务器集群用于LAToolkit向外发送告警邮件;
所述LAToolkit客户端部署于Lustre存储服务器(OSS)上,用于采集OSS日志及其他判断存储系统状态的信;
所述LAToolkit服务端部署于Lustre元数据(MDS)/管理(MGS)服务器上,用于处理LAToolkit客户端收集到的信息和处理其他LAToolkit操作。
其中,所述报警系统包括管理终端,所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。
其中,所述LAToolkit服务端和所述所述LAToolkit客户端为冗余设置。
与现有技术比,本发明的有益效果为:
本发明故障信息生成txt文件再转给管理员,其方便阅读,能直接查看,且能长期保存作为历史记录供查阅。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210348309.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能环保垃圾焚烧炉
- 下一篇:一种双旋流式低热值燃气燃烧器