[发明专利]一种使用机器学习预测硬盘故障的方法在审

专利信息
申请号: 201710631428.X 申请日: 2017-07-28
公开(公告)号: CN107392320A 公开(公告)日: 2017-11-24
发明(设计)人: 华飞君 申请(专利权)人: 郑州云海信息技术有限公司
主分类号: G06N99/00 分类号: G06N99/00;G06F11/22;G06F11/00
代理公司: 济南信达专利事务所有限公司37100 代理人: 阚恭勇
地址: 450000 河南省郑州市*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 使用 机器 学习 预测 硬盘 故障 方法
【说明书】:

技术领域

发明涉及云存储安全技术,尤其涉及一种使用机器学习预测硬盘故障的方法。

背景技术

近年来,云计算技术得到迅猛发展,云计算的安全性和可靠性成为企业和个人关注的焦点。确保数据不丢失,必须首先关注云存储的安全。由于云存储中磁盘的数量规模是极其庞大的,云环境下硬盘是服务器硬件故障率最高的一个部件,如果能提前预测到硬盘故障,对业务体验、完善备件管理都有莫大的收益。自我监测、分析及报告技术(SMART)是ATA标准规定的各磁盘厂商必须遵循的标准条件之一。它通过监控磁盘运行时的电机、磁头、温度等状态信息,并与磁盘厂商设定的安全阈值相比较来判断磁盘的健康状况。

SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及;它是ATA标准规定的各磁盘厂商必须遵循的标准条件之一,也是磁盘厂商普遍采用的故障磁盘预测方法。

每一块硬盘(包括IDE、SCSI)在运行的时候,都会将自身的若干参数记录下来;这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏。此时硬盘依然在工作,如果用户不理睬这个报警继续使用那么硬盘将变得非常不可靠,随时可能故障。

由于S M A R T的阈值判定方法过于简单,在实际运行环境中故障磁盘的检测率通常为3-10%,故障磁盘检测率过低,实际预警效用不大。

通过计算smart数据的变化过滤出有价值的数据,删除海量冗余数据。另外Smart数据包含两百多个属性,但通过统计计算出其中只有12个属性和硬盘故障强相关。

不同的硬盘,由于受厂商,环境,负荷及累计在线时间等因素的影响,相同的属性的值在整个硬盘的寿命区间内可能会显得差异很大,所有的数据如果使用相同的参数进行归一化,会严重影响模型的预测性能。如果对不同的硬盘分别进行训练建模,一则过程复杂,二则会是训练数据大幅减少,导致欠拟合。

发明内容

为了解决以上技术问题,本发明提出了一种使用机器学习预测硬盘故障的方法。通过机器学习使用统计分析后生成的预测模型进行预测,则能将正确率提高到90%以上,极大地提高了预测率。

一种使用机器学习预测硬盘故障的方法,使用blackblaze提供的海量smart数据集,根据不同品牌硬盘的smart数据分布不平衡的情况,使用随机森林算法,对历史数据进行训练建模,生成预测故障预测模型,提高故障预测率。

分别计算各个硬盘的属性值得统计特征,使用这些特征值,对不同的硬盘数据进行归一化预处理。基于归一化处理后的数据,使用随机森林算法进行训练,建立故障预测模型。实时监测硬盘的smart数据,根据属性值从历史数据中寻找出最匹配的硬盘,使用该硬盘各个属性的特征值,进行归一化处理。将归一化处理后的数据输入预测模型,预测硬盘健康状况。

随机森林实现过程

随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对smart训练集进行划分;在二叉树中,根节点包含全部训练数据,按照节点纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长。若节点n上的分类数据全部来自于同一类别,则此节点的纯度为0。

假设P(Xj)是节点n上属于Xj 类样本个数占训练总数百分比,具体实现过程如下:

(1)原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个带外数据;

(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;

(3)每棵树最大限度地生长, 不做任何修剪;

(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。

本发明的有益效果是

使用该技术可以提高硬盘故障正确率,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。

附图说明

图1是本发明的工作原理示意图;

图2是本发明的实施流程图。

具体实施方式

下面对本发明的内容进行更加详细的阐述:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710631428.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top