[发明专利]基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质在审
申请号: | 202110787064.0 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113434326A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 俞枫;曾宏祥;毛梦非;王厦;冯一欣;吴康;朱晓云 | 申请(专利权)人: | 国泰君安证券股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200041 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 集群 拓扑 实现 网络 系统故障 定位 方法 装置 处理器 及其 计算机 可读 存储 | ||
1.一种基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的方法包括以下步骤:
(1)根据网络集群中的故障传播时间和系统预设的指标数据得出故障传播因子;
(2)将所述的故障传播因子与归因算法结合得到归因系数;
(3)以所述的网络集群中每个触发告警的节点为起点,在故障归因图上进行根因分数传播测试,得到每一节点的故障时间根因分数;
(4)对所述的网络集群中的所有节点的所述的故障时间根因分数进行归一化处理,得到所有节点的根因概率分布;
(5)根据所述的所有节点的根因概率分布的情况推断出故障节点。
2.根据权利要求1所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中的故障传播时间具体为:
记录所述的网络集群中各个节点发生故障的时间,所述的各个节点之间的故障时间差作为所述的故障传播时间。
3.根据权利要求2所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,计算所述的步骤(1)中的故障传播时间具体为:根据历史故障传播时间进行统计后推算出本次故障传播时间。
4.根据权利要求3所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中,所述的故障传播因子的计算方法具体为:用所述的历史故障传播时间进行线性拟合推算出所述的本次故障传播时间Δta,b,并根据以下公式计算所述的故障传播因子ka,b:
其中,a表示节点a,b表示节点b,e为自然底数,Δta,b为节点a与节点b之间的故障时间差,ka,b为节点a与节点b的故障传播因子。
5.根据权利要求4所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中的指标数据包括CPU利用率、内存利用率和磁盘利用率中的任意组合。
6.根据权利要求5所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(2)中所述的归因系数的计算方法为:
获取所述的指标数据,计算各个节点之间的一阶差分线性相关度,并取最大值的开方值,再乘以所述的故障传播因子ka,b,具体用以下公式计算所述的归因系数:
其中,μa,b为节点a和节点b之间的归因系数,是节点a的第i个关键指标在异常时间段内的时间序列,为节点b的第j个关键指标在异常时间段内的时间序列,corr为皮尔逊相关系数,ka,b为节点a与节点b的故障传播因子。
7.根据权利要求1所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(3)中的故障归因图具体为:
根据所述的网络集群中各个节点之间的关系构建的故障归因图。
8.根据权利要求7所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)每次传播测试开始时,根据发出告警的节点上的所述的指标数据与其相关联的节点的指标数据计算出初始故障时间根因分数;
(3.2)遍历故障所有无环最长传播路径,在每条路径的节点留下根因分数,并根据所述的故障传播时间为每一个节点加上权重,计算各个节点之间的故障时间根因分数;
(3.3)每个节点将所有路径留下的故障时间根因分数叠加,生成该次传播测试的故障时间根因分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787064.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空心绝缘子装配方法
- 下一篇:节能、环保型熔分炉