[发明专利]一种Lustre并行文件系统错误报警方法及其系统有效

专利信息
申请号: 201210348309.0 申请日: 2012-09-18
公开(公告)号: CN102902615A 公开(公告)日: 2013-01-30
发明(设计)人: 刘冠川;王勇;秦东明;何牧君;杨亮;张新风;陈飞;刘超;吕永安 申请(专利权)人: 曙光信息产业(北京)有限公司
主分类号: G06F11/32 分类号: G06F11/32;G06F11/34;G06F17/30;H04L29/06
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 100193 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 lustre 并行 文件系统 错误 报警 方法 及其 系统
【说明书】:

技术领域

发明涉及计算机领域,具体涉及一种Lustre并行文件系统错误报警方法及其系统。

背景技术

大规模超算中心一般环境比较复杂,当Lustre并行文件系统发生故障时,关联的因素非常多,通过人工的方法去查找日志等信息来定位问题,通常会耗费大量的时间,故障无法及时得到解决。目前Lustre的监控软件主要用LMT。LMT能够通过Lustre的一些统计信息接口较好的呈现Lustre的历史使用状况,如当前读写速率、空间使用率等等。

LMT能提供一些文件系统IO流量、使用率等信息的统计,但无法进行对系统运行环境、Lustre日志等信息的分析和报警,对于Lustre文件系统运行维护并没有起到太大作用。当Lustre文件系统出现故障时仍然需要较长的时间去分析定位问题,如果管理员不在现场,故障就难以及时发现和解决。

发明内容

针对现有技术的不足,本发明提供一种Lustre并行文件系统错误报警方法及其系统,可以及时的发现故障并通知管理员,减少经济损失。

本发明提供的一种Lustre并行文件系统错误报警方法,其改进之处在于,所述方法包括如下步骤:

(1)监控模块对OSS日志进行周期性扫描;

(2)分析所述日志信息,判断是否存在故障信息,并将所述故障信息生成告警报告;

(3)严重的故障生成单独的报告供程序进一步分析,用于定位问题和自动处理。最后再和普通告警信息汇总写入txt文件中,通过mail中转站发送给管理员。。

其中,步骤(1)所述oss日志包括系统网络质量、Lustre日志信息和heartbeat日志信息。

其中,步骤(2)所述故障信息包括存储故障信息或导致存储出现故障的信息。

其中,步骤(3)所述定位过程包括如下步骤:

1)根据严重故障定位危险客户端,生成待重启节点列表;

2)判断危险客户端是否为僵死客户端,是则重启客户端,否则不予处理,待观察。

3)判断重启的客户端是否有异常,是则将异常信息通过mail中转站发送给管理员,否则属于正常重启,将操作成功日志写入LAToolkit日志中。

其中,步骤2)重启客户端通过向客户端的管理模块控制客户端的电源,将客户端重启。

其中,步骤(3)所述严重故障是指会直接导致存储系统故障的一种类型,其包括出现导致存储服务器死机的故障、出现导致存储服务器后端磁盘出现只读的故障、主备存储服务器间出现切换故障或主备服务器间心跳线故障。

其中,步骤(3)所述普通故障是指不会直接导致存储系统的故障的一种类型,其包括网络轻微丢包、某个邮件服务器故障或日志扫描时间过长现象。

本发明基于另一目的提供的一种Lustre并行文件系统错误报警系统,其改进之处在于,所述报警系统包括LAToolkit服务端、存储客户端集群、邮件服务器集群和LAToolkit客户端;

所述LAToolkit服务端、所述存储客户端集群和所述LAToolkit客户端通过存储网进行数据的交换和存储;

所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端通过存储管理网进行数据管理;

所述LAToolkit服务端和所述存储客户端集群通过电源管理网进行服务器的重启。

其中,所述存储客户端集群用于存储客户端集群挂载存储系统;

所述邮件服务器集群用于LAToolkit向外发送告警邮件;

所述LAToolkit客户端部署于Lustre存储服务器(OSS)上,用于采集OSS日志及其他判断存储系统状态的信;

所述LAToolkit服务端部署于Lustre元数据(MDS)/管理(MGS)服务器上,用于处理LAToolkit客户端收集到的信息和处理其他LAToolkit操作。

其中,所述报警系统包括管理终端,所述管理终端通过所述存储管理网对所述LAToolkit服务端、所述存储客户端集群、所述邮件服务器集群和所述LAToolkit客户端进行控制。

其中,所述LAToolkit服务端和所述所述LAToolkit客户端为冗余设置。

与现有技术比,本发明的有益效果为:

本发明故障信息生成txt文件再转给管理员,其方便阅读,能直接查看,且能长期保存作为历史记录供查阅。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210348309.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top