[发明专利]一种基于条件概率的时序日志样本自动标注方法及装置有效
申请号: | 201811584484.3 | 申请日: | 2018-12-24 |
公开(公告)号: | CN111428440B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 戴妙荷;陈卓;尚晶;黄岩;陶涛;徐海勇 | 申请(专利权)人: | 中移动信息技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 102209 北京市昌平区未来*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 条件 概率 时序 日志 样本 自动 标注 方法 装置 | ||
针对现有技术中需要依据经验预设样本集的某种属性关联形成经验库或者固定值,不适用于对无处理经验、探索性分析的陌生文本,如新隐患/异常/故障日志文本,进行准确的自动标注方法的问题,本发明公开了一种基于条件概率的时序日志样本自动标注方法及装置,该方法包括:根据日志库中每个第一类型的异常日志行的第一比值集合,确定第一时间窗口;根据每个所述第一类型的异常日志行的所述第一时间窗口内的第二比值集合,确定第二时间窗口;将每个所述第一类型的异常日志行的所述第二时间窗口内的所有日志行标注为异常日志行。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于条件概率的时序日志样本自动标注方法及装置。
背景技术
人工智能应用的场景很多,其中在运维工作中的场景为智能运维,文件异常检测和根因分析都是基于海量系统日志进行处理的应用场景,其基本处理过程是系统日志文件的采样、标注、建模计算和判断,实现异常检测、预测、根因定位,从而进行预警,提前解决可能故障,缩短故障处理时间。
目前基于时序日志行的标注多使用人工标注的方法对异常日志行进行标注。人工标注依赖于人员对日志的分辨能力,要求标注人员首先知道出现异常的日志行是由哪些日志行导致的,然后准确地将异常日志行从日志中找到,并且进行标注。一方面,这个过程要求标注人员预先知道标注异常的日志行,要求较高,并且对于原因未明确的隐患、异常或者故障,将难以准确标注,从而影响文本异常检测的精准度;另一方面,随着系统规模的增大,日志量也在不断地增大、异常情况越来越多,对海量日志进行人工标注将耗用大量人力。
因此,需要对异常日志行进行自动标注。现有技术中,对异常日志行进行自动标注的方法主要有四种:(1)第一,直接将故障出现的时序日志全量标注为异常日志行,具体实施过程仍然涉及到预定义的故障日志序列区域时间窗口大小的选择,即使用预设的时间窗口内故障日志标注为异常日志行,但是时间窗口设置依赖于人工经验(2)第二,基于已经建立的知识库中存储的命名实体和命名实体对,先通过字符匹配搜索命名实体对共现的句子,然后筛选出不存在实体对异常的句子进行标注。使用到时序日志文本进行标注的话,则是需要先人工定义异常与日志行的文本对应关系库,搜索共现的序列文本,进行标注,然而,该方法依赖于人工定义的日志行间的关系并形成知识库。(3)第三,基于已经建立的知识库中存储的词汇属性信息,以及不同词汇之间的处理关系,进行先后处理,实现自动标注。迁移到时序日志文本,则是需要先人工定义异常与日志行之间词汇属性及其对应关系,再针对词汇之间的先后关联进行标注。但是,该方法依赖于人工定义的异常与日志行之间词汇属性信息及其对应关系并且形成知识库。(4)第四,通过故障指标与日志具有相同时序的关联属性,使用已知日志序列状态关联至未知序列,实现未知序列的自动标注,该方法处理过程涉及到两个序列和两个序列之间的对应关系,不仅要求其中一个序列状态是已知的,而且依赖于人工定义的序列间关联属性。
综上所述,现有技术需要依据经验预设样本集的某种属性关联形成经验库或者固定值,不适用于对无处理经验、探索性分析的陌生文本,如新隐患/异常/故障日志文本,进行准确的自动标注。为了解决该问题,本申请提出一种基于条件概率的时序日志样本自动标注方法及装置。
发明内容
本申请实施例提供了一种基于条件概率的时序日志样本自动标注方法及装置,解决了现有技术中需要依据经验预设样本集的某种属性关联形成经验库或者固定值,不适用于对无处理经验、探索性分析的陌生文本,如新隐患/异常/故障日志文本,进行准确的自动标注的问题。
本发明实施例提供一种基于条件概率的时序日志样本自动标注方法,该方法包括:
根据日志库中每个第一类型的异常日志行的第一比值集合,确定第一时间窗口;所述第一时间窗口为每个所述第一类型的异常日志行所在时间戳之前需要截取的连续N个第一单位时长大小的时间段;N为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移动信息技术有限公司;中国移动通信集团有限公司,未经中移动信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811584484.3/2.html,转载请声明来源钻瓜专利网。