[发明专利]一种基于机器学习的系统故障诊断智能化运维方法及系统在审
申请号: | 201910010700.1 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109800127A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 曾德强 | 申请(专利权)人: | 众安信息技术服务有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32;G06F11/34;G06K9/62 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 顾友 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 运维 指标数据 标注 系统故障诊断 故障诊断 基于机器 数据模型 智能化 机器学习模型 计算分析系统 抓取 诊断 故障产生 故障原因 获取系统 机器学习 健康状况 决策组件 使用场景 数据触发 无人值守 异常堆栈 异常指标 诊断结果 自我修复 告警 图谱 采集 监控 学习 环节 决策 应用 发现 | ||
本发明公开了一种基于机器学习的系统故障诊断智能化运维方法及系统,方法包括:获取系统的指标数据和标注数据;根据指标数据以及标注数据分别训练不同使用场景的数据模型;根据采集到的当前指标数据以及数据模型,计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。本发明通过将机器学习模型应用到自动运维体系中,如监控、故障诊断、运维决策等各个运维环节,能够快速发现故障以及诊断故障产生的原因,同时提供运维决策组件,根据各方诊断结果完成自我修复动作,做到真正无人值守的运维。
技术领域
本发明涉及智能化运维技术领域,特别涉及一种基于机器学习的系统故障诊断智能化运维方法及系统。
背景技术
随着互联网迅猛的发展,产品规模和服务器数量成指数级增长,服务器数量从早期的几台到百级,千级,万级数量。运维人员的也从早期的人工运维升级到现在的工具化,半自动化运维。随着业务、服务器数量的快速增长,技术人员面临这巨大的挑战,主要有以下几个方面:
1、监控指标越来越多,使用传统的运维方式从海量指标数据中找出运维需要关注的指标,运维人员需要花费较长的时间;
2、大规模报警会影响到技术人员的决策判断,不能及时响应产生的故障;
3、工具分散,不但增加了学习成本和拥有成本,而且各系统之间相互独立,数据共享困难;
4、相同问题的排查处理经验得不到传承,技术人员不停的做着重复劳动
因此,亟需要提出一种新的智能化运维方法,以克服上述一个或多个问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于机器学习的系统故障诊断智能化运维方法及系统,以克服现有技术中不能快速发现故障以及诊断故障产生的原因、不能自动完成自我修复等问题。
为解决上述技术问题,本发明采用的技术方案是:
一方面,提供了一种基于机器学习的系统故障诊断智能化运维方法,所述方法包括如下步骤:
S1:获取系统的指标数据和标注数据;
S2:根据所述指标数据以及标注数据分别训练不同使用场景的数据模型;.
S3:根据采集到的当前指标数据以及所述数据模型,计算分析系统运行健康状况以及对抓取到的异常指标数据触发故障诊断和告警;
S4:根据机器学习建立的关系图谱以及异常堆栈标注数据,诊断出故障原因。
进一步的,所述获取标注数据至少包括:
获取所述指标数据中的异常指标数据,对所述异常指标数据进行指标异常波动标注以及指标异常波动原因标注;和/或,
获取异常指标数据的异常堆栈信息,标注所述异常堆栈的关键词;和/或,
对排查出的故障问题数据进行标注。
进一步的,所述步骤S3具体包括:
根据时间窗口抓取到当前指标数据中的异常指标数据后,触发故障诊断和告警;和/或,
利用所述数据模型计算分析所述当前指标数据,获取系统运行健康状况,并根据抓取到的异常指标数据触发故障诊断和告警。
进一步的,所述步骤S4具体包括:
根据机器学习建立的关系图谱以及异常堆栈标注数据,分别进行自检,获取自检结果;和/或
利用先前排查问题获取的决策数据计算故障可能存在的所有原因,并进行相应的检查,获取检查结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众安信息技术服务有限公司,未经众安信息技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910010700.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:补丁安装失败的分析方法及装置
- 下一篇:基于微服务的操作日志记录收集方法