[发明专利]一种基于故障日志的高性能计算系统故障预测方法有效
| 申请号: | 202111117395.X | 申请日: | 2021-09-23 |
| 公开(公告)号: | CN113704075B | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 刘杰;方娇丽;左克;李胜国;迟利华;胡庆丰;龚春叶;甘新标;杨博;陈旭光;肖调杰;徐涵 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F11/00;G06F16/215;G06F16/2458;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 湖南企企卫知识产权代理有限公司 43257 | 代理人: | 任合明 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 故障 日志 性能 计算 系统故障 预测 方法 | ||
1.一种基于故障日志的高性能计算系统故障预测方法,其特征在于包括以下步骤:
第一步、对高性能计算系统原始故障日志信息进行分析处理,得到故障时间序列数据集C,方法是:
1.1从高性能计算系统取得原始故障日志数据,对故障日志数据分析,得到含有N个故障日志数据第一数据集D,N为正整数,D中包含10个字段,10个字段分别为:编号ID、日志系统记录的故障发生时间ReceivedAt、故障发生的第一时间DeviceReportedTime、故障设备名称Facility、故障等级Priority、故障结点号FromHost、故障消息Message、故障编号InfoUnitID、系统日志编号SysLogTag、校验码checksum;将DeviceReportedTime作为故障发生的时间;
1.2将DeviceReportedTime字段修改为“date”,date作为BiLSTM中的时间序列索引,并按照date字段时间先后顺序对第一数据集D进行排序,删去ReceivedAt和ID字段,得到含有N个故障日志数据的第二数据集D’,D’含有8个字段;
1.3对第二数据集D’中的N个故障日志数据,依次计算相邻两个故障发生的间隔时间数,并将相邻故障发生的时间间隔数值保存为新的字段time-interval的值,得到9个字段的第三数据集D”,删除第N个数据,第三数据集D”数据个数N’=N-1;
1.4对第三数据集D”中的time-interval进行分析,对time-interval值大于A的数据分析记录故障原因的Message字段,如果Message字段表明是不可预测的故障,去则除异常数据,否则,保留该数据,得到第四数据集D”’;
1.5分析第四数据集D”’中记录故障发生结点的FromHost字段,剔除D”’中登录结点和管理结点的故障日志数据,得到故障时间序列数据集C;
第二步、对C进行聚类,得到用于预测的与K个故障类型对应的K个聚类C1、C2…Ck…CK,1≤k≤K;
第三步、搭建故障预测模型;故障预测模型采用CNN-BiLSTM-Attention模型,依次包括InputLayer输入层、Conve1D一维卷积层、Dropout层、BiLSTM 层、Attention层以及Dense层,按此顺序前一层的输出为后一层的输入;
InputLayer输入层从外部接收要处理的被测数据集I,针对I中的异常数据,采用临近均值进行替换,针对I中不同变量取值大小相差较大的进行归一化,得到归一化后的数据集I’,将I’划分为训练集和测试集;
Conve1D一维卷积层是卷积神经网络,从InputLayer输入层接收训练集或测试集,抽取训练集或测试集的数据特征,挖掘多维数据之间的相互关联并从中剔除噪声和不稳定成分;当输入数据X时,卷积层的特征图F表示为:式中,为卷积操作;W为卷积核的权重向量;b表示偏移量;f(·)为Relu激活函数;
Dropout层实现在深度学习网络的训练过程中,按照概率P将神经网络单元暂时从网络中丢弃,得到相对稳定的信息;
BiLSTM层由前向LSTM与后向LSTM组合而成,根据从Dropout层获得的相对稳定的信息进行长序列预测,得到上下文的信息表示h;
Attention层对从BiLSTM层接收的h进行权重计算,对h进行一次全连接,随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重,使得模型能依靠更有利于准确预测的字段做出预测,减少无关字段对准确预测的影响;
Dense层对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上,得到输出Predictivevalue,包括预测的故障发生结点位置的结点编号cn号和故障发生的提前时间;
第四步,利用第二步得到的C1、C2…Ck…CK分别作为第三步搭建的预测故障模型的输入数据,实现对故障预测模型的训练,得到K个时间预测模型和K个故障结点预测模型,方法如下:
4.1初始化k=1;将Ck划分为训练集、测试集,分别为:训练集为Ck’、测试集为Tk;
4.2初始化m=1,设置预测维度为time-interval;
4.3 InputLayer层针对Ck’中的异常数据,采用临近均值进行替换;针对不同变量取值大小相差较大,进行归一化,得到归一化后的Ck’;
4.4 Conve1D层对从InputLayer层接收的归一化后的Ck’进行卷积操作,将卷积操作后的归一化后的Ck’发送给Dropout层;
4.5 Dropout层将卷积操作后的归一化后的Ck’以神经元的形式进行处理,每个神经元以概率P移除,使得特征之间的协同作用被减弱,得到相对稳定的数据信息Ck”;Ck”作为整体传入BiLSTM层;
4.6 BiLSTM层的前向LSTM对Ck”进行前向处理,获得上文的信息h→,后向LSTM对Ck”进行后向处理,获得下文的信息h←,将h→和h←结合起来得到上下文的信息表示h,将h输出给Attention层;
4.7 Attention层h进行权重计算,将h进行全连接,随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重;
4.8 Dense对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上,得到输出Predictivevalue;计算本轮损失函数的loss值,若loss不收敛,则转4.4继续训练,否则:若m=1,则训练的模型是为了预测故障发生的提前时间,此时得到的模型为第k个时间预测模型Mkt;若m=2,则训练的模型是为了预测故障发生的位置即结点号cn,此时得到的模型为第k个故障结点预测模型Mkp;
4.9令m=m+1,若m2,则转4.11,否则,转4.10;
4.10设置预测维度为FromHost,转4.3;
4.11令k=k+1,若kK,转第五步,否则,转4.2;
第五步:利用第四步得到的训练后的模型对C1、C2…Ck…CK故障数据中的测试集T1、T2…Tk…TK进行预测,由M1t、M2t…Mkt…MKt预测对应测试集故障提前时间,由M1p、M2p…Mkp…MKp预测对应测试集故障发生位置即结点号,测试集与预测模型分别一一对应,实现预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117395.X/1.html,转载请声明来源钻瓜专利网。





