[发明专利]一种基于故障日志的高性能计算系统故障预测方法有效

申请号：	202111117395.X	申请日：	2021-09-23
公开（公告）号：	CN113704075B	公开（公告）日：	2022-09-02
发明（设计）人：	刘杰;方娇丽;左克;李胜国;迟利华;胡庆丰;龚春叶;甘新标;杨博;陈旭光;肖调杰;徐涵	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F11/34	分类号：	G06F11/34;G06F11/00;G06F16/215;G06F16/2458;G06N3/04;G06N3/08;G06K9/62
代理公司：	湖南企企卫知识产权代理有限公司 43257	代理人：	任合明
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于故障日志性能计算系统故障预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于故障日志的高性能计算系统故障预测方法，其特征在于包括以下步骤：

第一步、对高性能计算系统原始故障日志信息进行分析处理，得到故障时间序列数据集C，方法是：

1.1从高性能计算系统取得原始故障日志数据，对故障日志数据分析，得到含有N个故障日志数据第一数据集D，N为正整数，D中包含10个字段，10个字段分别为：编号ID、日志系统记录的故障发生时间ReceivedAt、故障发生的第一时间DeviceReportedTime、故障设备名称Facility、故障等级Priority、故障结点号FromHost、故障消息Message、故障编号InfoUnitID、系统日志编号SysLogTag、校验码checksum；将DeviceReportedTime作为故障发生的时间；

1.2将DeviceReportedTime字段修改为“date”，date作为BiLSTM中的时间序列索引，并按照date字段时间先后顺序对第一数据集D进行排序，删去ReceivedAt和ID字段，得到含有N个故障日志数据的第二数据集D’，D’含有8个字段；

1.3对第二数据集D’中的N个故障日志数据，依次计算相邻两个故障发生的间隔时间数，并将相邻故障发生的时间间隔数值保存为新的字段time-interval的值，得到9个字段的第三数据集D”，删除第N个数据，第三数据集D”数据个数N’＝N-1；

1.4对第三数据集D”中的time-interval进行分析，对time-interval值大于A的数据分析记录故障原因的Message字段，如果Message字段表明是不可预测的故障，去则除异常数据，否则，保留该数据，得到第四数据集D”’；

1.5分析第四数据集D”’中记录故障发生结点的FromHost字段，剔除D”’中登录结点和管理结点的故障日志数据，得到故障时间序列数据集C；

第二步、对C进行聚类，得到用于预测的与K个故障类型对应的K个聚类C₁、C₂…C_k…C_K，1≤k≤K；

第三步、搭建故障预测模型；故障预测模型采用CNN-BiLSTM-Attention模型，依次包括InputLayer输入层、Conve1D一维卷积层、Dropout层、BiLSTM 层、Attention层以及Dense层，按此顺序前一层的输出为后一层的输入；

InputLayer输入层从外部接收要处理的被测数据集I，针对I中的异常数据，采用临近均值进行替换，针对I中不同变量取值大小相差较大的进行归一化，得到归一化后的数据集I’，将I’划分为训练集和测试集；

Conve1D一维卷积层是卷积神经网络，从InputLayer输入层接收训练集或测试集，抽取训练集或测试集的数据特征，挖掘多维数据之间的相互关联并从中剔除噪声和不稳定成分；当输入数据X时，卷积层的特征图F表示为：式中，为卷积操作；W为卷积核的权重向量；b表示偏移量；f(·)为Relu激活函数；

Dropout层实现在深度学习网络的训练过程中，按照概率P将神经网络单元暂时从网络中丢弃，得到相对稳定的信息；

BiLSTM层由前向LSTM与后向LSTM组合而成，根据从Dropout层获得的相对稳定的信息进行长序列预测，得到上下文的信息表示h；

Attention层对从BiLSTM层接收的h进行权重计算，对h进行一次全连接，随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重，使得模型能依靠更有利于准确预测的字段做出预测，减少无关字段对准确预测的影响；

Dense层对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化,提取这些权重之间的关联,映射到输出空间上，得到输出Predictivevalue，包括预测的故障发生结点位置的结点编号cn号和故障发生的提前时间；

第四步，利用第二步得到的C₁、C₂…C_k…C_K分别作为第三步搭建的预测故障模型的输入数据，实现对故障预测模型的训练，得到K个时间预测模型和K个故障结点预测模型，方法如下：

4.1初始化k＝1；将C_k划分为训练集、测试集，分别为：训练集为C_k’、测试集为T_k；

4.2初始化m＝1，设置预测维度为time-interval；

4.3 InputLayer层针对C_k’中的异常数据，采用临近均值进行替换；针对不同变量取值大小相差较大，进行归一化，得到归一化后的C_k’；

4.4 Conve1D层对从InputLayer层接收的归一化后的C_k’进行卷积操作，将卷积操作后的归一化后的C_k’发送给Dropout层；

4.5 Dropout层将卷积操作后的归一化后的C_k’以神经元的形式进行处理，每个神经元以概率P移除，使得特征之间的协同作用被减弱，得到相对稳定的数据信息C_k”；C_k”作为整体传入BiLSTM层；

4.6 BiLSTM层的前向LSTM对C_k”进行前向处理，获得上文的信息h→，后向LSTM对C_k”进行后向处理，获得下文的信息h←，将h→和h←结合起来得到上下文的信息表示h，将h输出给Attention层；

4.7 Attention层h进行权重计算，将h进行全连接，随后采用softmax函数计算h中各个字段对预测值的预测准确度的贡献的权重；

4.8 Dense对从Attention层获得的h中各个字段对预测值的预测准确度的贡献的权重进行非线性变化，提取这些权重之间的关联,映射到输出空间上，得到输出Predictivevalue；计算本轮损失函数的loss值，若loss不收敛，则转4.4继续训练，否则：若m＝1,则训练的模型是为了预测故障发生的提前时间，此时得到的模型为第k个时间预测模型M_kt；若m＝2，则训练的模型是为了预测故障发生的位置即结点号cn，此时得到的模型为第k个故障结点预测模型M_kp；

4.9令m＝m+1，若m2，则转4.11，否则，转4.10；

4.10设置预测维度为FromHost，转4.3；

4.11令k＝k+1，若kK，转第五步，否则，转4.2；

第五步：利用第四步得到的训练后的模型对C₁、C₂…C_k…C_K故障数据中的测试集T₁、T₂…T_k…T_K进行预测，由M_1t、M_2t…M_kt…M_Kt预测对应测试集故障提前时间，由M_1p、M_2p…M_kp…M_Kp预测对应测试集故障发生位置即结点号，测试集与预测模型分别一一对应，实现预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111117395.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种水体生态修复环保监测装置
下一篇：一种控制玻璃生产工艺中的机械铁杂质水平的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F11-00 错误检测；错误校正；监控
G06F11-07 .响应错误的产生，例如，容错
G06F11-22 .在准备运算或者在空闲时间期间内，通过测试作故障硬件的检测或定位
G06F11-28 .借助于检验标准程序或通过处理作错误检测、错误校正或监控
G06F11-30 .监控
G06F11-36 .通过软件的测试或调试防止错误

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于故障日志的高性能计算系统故障预测方法有效

专利文献下载