[发明专利]一种基于故障日志的高性能计算系统故障预测方法有效

专利信息
申请号: 202111117395.X 申请日: 2021-09-23
公开(公告)号: CN113704075B 公开(公告)日: 2022-09-02
发明(设计)人: 刘杰;方娇丽;左克;李胜国;迟利华;胡庆丰;龚春叶;甘新标;杨博;陈旭光;肖调杰;徐涵 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F11/34 分类号: G06F11/34;G06F11/00;G06F16/215;G06F16/2458;G06N3/04;G06N3/08;G06K9/62
代理公司: 湖南企企卫知识产权代理有限公司 43257 代理人: 任合明
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 故障 日志 性能 计算 系统故障 预测 方法
【权利要求书】:

1.一种基于故障日志的高性能计算系统故障预测方法,其特征在于包括以下步骤:

第一步、对高性能计算系统原始故障日志信息进行分析处理,得到故障时间序列数据集C,方法是:

1.1从高性能计算系统取得原始故障日志数据,对故障日志数据分析,得到含有N个故障日志数据第一数据集D,N为正整数,D中包含10个字段,10个字段分别为:编号ID、日志系统记录的故障发生时间ReceivedAt、故障发生的第一时间DeviceReportedTime、故障设备名称Facility、故障等级Priority、故障结点号FromHost、故障消息Message、故障编号InfoUnitID、系统日志编号SysLogTag、校验码checksum;将DeviceReportedTime作为故障发生的时间;

1.2将DeviceReportedTime字段修改为“date”,date作为BiLSTM中的时间序列索引,并按照date字段时间先后顺序对第一数据集D进行排序,删去ReceivedAt和ID字段,得到含有N个故障日志数据的第二数据集D’,D’含有8个字段;

1.3对第二数据集D’中的N个故障日志数据,依次计算相邻两个故障发生的间隔时间数,并将相邻故障发生的时间间隔数值保存为新的字段time-interval的值,得到9个字段的第三数据集D”,删除第N个数据,第三数据集D”数据个数N’=N-1;

1.4对第三数据集D”中的time-interval进行分析,对time-interval值大于A的数据分析记录故障原因的Message字段,如果Message字段表明是不可预测的故障,去则除异常数据,否则,保留该数据,得到第四数据集D”’;

1.5分析第四数据集D”’中记录故障发生结点的FromHost字段,剔除D”’中登录结点和管理结点的故障日志数据,得到故障时间序列数据集C;

第二步、对C进行聚类,得到用于预测的与K个故障类型对应的K个聚类C1、C2…Ck…CK,1≤k≤K;

第三步、搭建故障预测模型;故障预测模型采用CNN-BiLSTM-Attention模型,依次包括InputLayer输入层、Conve1D一维卷积层、Dropout层、BiLSTM 层、Attention层以及Dense层,按此顺序前一层的输出为后一层的输入;

InputLayer输入层从外部接收要处理的被测数据集I,针对I中的异常数据,采用临近均值进行替换,针对I中不同变量取值大小相差较大的进行归一化,得到归一化后的数据集I’,将I’划分为训练集和测试集;

Conve1D一维卷积层是卷积神经网络,从InputLayer输入层接收训练集或测试集,抽取训练集或测试集的数据特征,挖掘多维数据之间的相互关联并从中剔除噪声和不稳定成分;当输入数据X时,卷积层的特征图F表示为:式中,为卷积操作;W为卷积核的权重向量;b表示偏移量;f(·)为Relu激活函数;

Dropout层实现在深度学习网络的训练过程中,按照概率P将神经网络单元暂时从网络中丢弃,得到相对稳定的信息;

BiLSTM层由前向LSTM与后向LSTM组合而成,根据从Dropout层获得的相对稳定的信息进行长序列预测,得到上下文的信息表示h;

Attention层对从BiLSTM层接收的h进行权重计算,对h进行一次全连接,随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重,使得模型能依靠更有利于准确预测的字段做出预测,减少无关字段对准确预测的影响;

Dense层对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上,得到输出Predictivevalue,包括预测的故障发生结点位置的结点编号cn号和故障发生的提前时间;

第四步,利用第二步得到的C1、C2…Ck…CK分别作为第三步搭建的预测故障模型的输入数据,实现对故障预测模型的训练,得到K个时间预测模型和K个故障结点预测模型,方法如下:

4.1初始化k=1;将Ck划分为训练集、测试集,分别为:训练集为Ck’、测试集为Tk

4.2初始化m=1,设置预测维度为time-interval;

4.3 InputLayer层针对Ck’中的异常数据,采用临近均值进行替换;针对不同变量取值大小相差较大,进行归一化,得到归一化后的Ck’;

4.4 Conve1D层对从InputLayer层接收的归一化后的Ck’进行卷积操作,将卷积操作后的归一化后的Ck’发送给Dropout层;

4.5 Dropout层将卷积操作后的归一化后的Ck’以神经元的形式进行处理,每个神经元以概率P移除,使得特征之间的协同作用被减弱,得到相对稳定的数据信息Ck”;Ck”作为整体传入BiLSTM层;

4.6 BiLSTM层的前向LSTM对Ck”进行前向处理,获得上文的信息h→,后向LSTM对Ck”进行后向处理,获得下文的信息h←,将h→和h←结合起来得到上下文的信息表示h,将h输出给Attention层;

4.7 Attention层h进行权重计算,将h进行全连接,随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重;

4.8 Dense对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上,得到输出Predictivevalue;计算本轮损失函数的loss值,若loss不收敛,则转4.4继续训练,否则:若m=1,则训练的模型是为了预测故障发生的提前时间,此时得到的模型为第k个时间预测模型Mkt;若m=2,则训练的模型是为了预测故障发生的位置即结点号cn,此时得到的模型为第k个故障结点预测模型Mkp

4.9令m=m+1,若m2,则转4.11,否则,转4.10;

4.10设置预测维度为FromHost,转4.3;

4.11令k=k+1,若kK,转第五步,否则,转4.2;

第五步:利用第四步得到的训练后的模型对C1、C2…Ck…CK故障数据中的测试集T1、T2…Tk…TK进行预测,由M1t、M2t…Mkt…MKt预测对应测试集故障提前时间,由M1p、M2p…Mkp…MKp预测对应测试集故障发生位置即结点号,测试集与预测模型分别一一对应,实现预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111117395.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top