[发明专利]一种故障根因分析方法在审
申请号: | 202210030401.6 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114385451A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 李建华;陈璐艺;翁亮 | 申请(专利权)人: | 上海鹤优信息科技有限公司;上海鹏越惊虹信息技术发展有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 上海简克律师事务所 31417 | 代理人: | 刘君 |
地址: | 200120 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 故障 分析 方法 | ||
本发明适用于网络安全技术领域,提供了一种故障根因分析方法,所述方法包括以下步骤:主机监测指标;构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成;构建指标依赖关系图;对故障根因指标进行排序。本发明输出是一个经过排序的指标序列,从而将故障的根因指标排在最前面,能够有效提升运维人员故障排查的效率。
技术领域
本发明涉及网络安全技术领域,具体是涉及一种故障根因分析方法。
背景技术
随着越来越多的软件系统部署于云环境中,当软件发生性能故障的时候,运维人员要迅速定位故障的原因变得越来越困难。传统的故障定位主要依赖于运维人员的经验判断,人工查阅海量的告警信息,这里有两个方面的挑战,一方面,人工察看海量的告警信息非常耗时,这不利于迅速处置业务系统故障。另一方面,海量的告警信息之间存在着因果难辨的问题,即大量的监测指标几乎同时发生异常变动,这里只有少量的是故障的根本原因,大量的是症状原因。运维人员如果需要依赖于人工经验来判断故障的根因,极大地提高了运维人员的门槛。
云环境结构的复杂性也进一步提升了故障根因分析的难度。通常来讲,对云环境中业务系统的监测,包括对云环境的、虚拟主机、中间件和业务系统本身的多重监测指标,这些指标之间具有多重的关联关系。有些关联关系是对故障定位有用的,有些关联关系却是对故障定位起误导作用的,因此,需要提供一种故障根因分析方法,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种故障根因分析方法,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种故障根因分析方法,所述方法包括以下步骤:
主机监测指标;
构建异常指标集,所述构建异常指标集由确定指标异常变动时间、计算监测指标异常变动程度和确定异常指标集三个步骤组成;
构建指标依赖关系图;
对故障根因指标进行排序。
作为本发明进一步的方案:所述确定指标异常变动时间的步骤,具体包括:
在故障时间窗内,对指标进行分析,提取指标异常变动的时间,其中故障时间窗通常表示为[Tf-w1,Tf],Tf表示业务系统观察到故障的时间,w1是一个回溯窗口;
采用差分绝对值来表示指标在故障窗口内每一个监测点的变动量,监测点的变动量表示为|xt+1-xt|,其中xt代表监测指标t时刻的值,xt+1表示后续时刻的值,将监测指标在故障窗口内最大的差分绝对值所对应的时间点定义为监测指标的异常变动时间。
作为本发明进一步的方案:所述计算监测指标异常变动程度的步骤,具体包括:
将异常变化前[Tc-w2,Tc]时间段内的监测指标序列定义为{xi},将异常变化后[Tc,Tr]时间段内的监测指标序列定义为{xj},其中w2表示计算{xi}统计特征的时间段,Tr表示故障分析人员采取应急措施的时间;
采用后验概率表示监测指标异常变动程度,后验概率用于刻划指标的上升程度u和下降程度d,取几何平均来消除指标间不同的采样概率,表示如下:
其中X表示异常变化前监测指标的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海鹤优信息科技有限公司;上海鹏越惊虹信息技术发展有限公司,未经上海鹤优信息科技有限公司;上海鹏越惊虹信息技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210030401.6/2.html,转载请声明来源钻瓜专利网。