[发明专利]一种高召回率的日志异常检测方法有效
申请号: | 202110404453.0 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113064873B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 李虎;曾毅峰;路进锋;吴霄林 | 申请(专利权)人: | 上海浦东发展银行股份有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/2458;G06F11/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 林君如 |
地址: | 200002 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 召回 日志 异常 检测 方法 | ||
1.一种高召回率的日志异常检测方法,其特征在于,遍历每一个已知日志模式,对每一个已知日志模式做相同的判断,提取日志模式数量序列,在提取的统一的日志模式数量序列下,基于单条日志异常、日志序列异常和不变量异常三者之间的关系,同时检测单条日志异常、日志序列异常和不变量异常;所述日志模式数量序列通过训练过程中保存的总日志模式序列和日志解析算法转换得到;
对每一个已知日志模式做相同的判断,提取日志模式数量序列的具体内容为:
获取指定时间窗口的日志序列,引入一个未知日志模式和异常日志模式,利用时间滑动窗口提取日志模式数量序列;
引入一个未知日志模式和异常日志模式,利用时间滑动窗口提取日志模式数量序列的具体内容为:
获取指定时间窗口的日志序列,并对该指定时间窗口的日志序列进行训练,通过训练过程中保存的总日志模式序列和日志解析算法,将其转换为日志模式数量序列,假设训练过程中保存的总日志模式序列的大小为N,则日志模式数量序列的长度为N+2,将日志模式数量序列中前N个元素与总日志模式序列中的模式通过下标一一对应,将最后一个元素对应为未知模式,即未在训练数据中出现的模式,将倒数第二个元素对应为异常日志模式。
2.根据权利要求1所述的高召回率的日志异常检测方法,其特征在于,采用并行方式遍历每一个已知日志模式。
3.根据权利要求1所述的高召回率的日志异常检测方法,其特征在于,基于单条日志异常、日志序列异常和不变量异常三者之间的关系,对单条日志异常进行检测的具体内容为:
创建并维持一个异常日志模式库,将初始时的异常日志模式库设定为空,在检测时,若日志模式数量的倒数第二个元素不为0,反馈单条日志模式错误信号,并将对应的异常日志模式和对应的数量反映在检测结果中;若日志模式数量的最后一个元素不为空,反馈模式新增的异常信号,并将对应的新增日志模式和数量反映在检测结果中,再结合用户核实反馈进行确定,若用户核实反馈为检测无误,即新增的日志模式为异常日志模式,则将新增的日志模式更新至异常日志模式库中,若用户核实反馈为检测错误,即新增的日志模式为引入的正常日志模式,则将新增的日志模式更新到总日志模式序列中。
4.根据权利要求1所述的高召回率的日志异常检测方法,其特征在于,基于单条日志异常、日志序列异常和不变量异常三者之间的关系,采用同比环比的方式对日志序列异常进行检测;采用同比环比的方式对日志序列异常进行检测的具体内容为:
遍历每一个已知日志模式,对每一个已知日志模式执行相同的逻辑判断,即设定时间窗口长度,当时间窗口大小设定完成后,将每日的时间进行多个数据点划分;设置一个时间偏移量t,利用实际日志数量与历史同时刻加同时刻左、右各t个时间窗口的数据比判断日志序列异常。
5.根据权利要求4所述的高召回率的日志异常检测方法,其特征在于,利用实际日志数量与历史同时刻加同时刻左、右各t个时间窗口的数据比判断日志序列异常的具体内容为:
召回当前日志模式所在历史数据中同时间窗口及偏移t个窗口的内的数量组成一个历史日志数量序列,计算历史日志数量序列的中位数作为其期望日志数量,随后将历史日志数量序列的每一个值减去这期望日志数量得到残差序列后,利用核密度估计模型计算其日志数量的上、下阈值,当实际的日志数量超过上阈值或者低于下阈值时,执行异常告警。
6.根据权利要求1所述的高召回率的日志异常检测方法,其特征在于,基于单条日志异常、日志序列异常和不变量异常三者之间的关系,采用新型不变量挖掘和分析算法对不变量异常进行检测;采用新型不变量挖掘和分析算法对不变量异常进行检测的具体内容为:
1)将训练日志序列通过时间滑动窗口切分为多个日志子序列,将每一个日志子序列转换为日志模式数量序列,进而获取日志模式数量矩阵,其中横轴表示各个时间窗口,纵轴表示各个日志模式;
2)假设总日志模式序列的大小为N,则潜在的二元不变量为N!/2*(N-2)!个,利用剪枝策略进行判断,若一个日志模式在日志模式数量矩阵中对应的取值不为零的日志模式数量序列的个数小于常数K,则剪去所有与该日志模式相关的潜在不变量;对于日志模式A和日志模式B的组合,假设二者在日志模式数量矩阵中对应的取值分别不为零和同时不为零的日志模式数量序列的个数分别为numLA,numLB和numLA_B,若numLA_B/max(numLA,numLB)0.9,则剪去这个不变量组合,对于剩下的不变量组合,从二者同时不为零的日志模式数量序列中提取各自的数量序列LA、LB,随后利用这两个数据训练线性回归模型M,基于LA和LB计算M的决定系数score,若score0.8,则将该不变量组合视为一组不变量,随后计算|numA–w*numB-b|/(numA+numB)/2序列作为判决值,其中w为斜率,b为截距,numA和numB分别为日志模式A和B对应的日志数量,进而根据3-sigma原则计算检测阈值thres;
3)若步骤2)计算得到的判决值大于对应的score,则判断出现不变量异常,并将对应的不变量和线性关系反映在检测结果中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海浦东发展银行股份有限公司,未经上海浦东发展银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110404453.0/1.html,转载请声明来源钻瓜专利网。