[发明专利]一种自动化日志异常检测方法及系统在审
申请号: | 201910320115.1 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110210512A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 丁健 | 申请(专利权)人: | 北京亿阳信通科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100093 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志数据 日志 异常检测 异常点 分类模型 机器学习 特征集合 检测 自动化 预处理 数据处理领域 人工成本 时间成本 特征提取 训练样本 异常操作 原始日志 数据集 无监督 算法 预警 指令 发现 分组 监督 | ||
1.一种自动化日志异常检测方法,其特征在于,包括:
步骤S1:对原始日志数据进行预处理得到第一日志数据集;
步骤S2:对所述第一日志数据集进行分组得到多个第二日志数据集,对各第二数据集进行特征提取得到对应的各特征集合;
步骤S3:根据无监督异常点发现算法及异常操作指令在各第二日志数据集中发现对应的日志异常点;
步骤S4:对所述各特征集合和对应的日志异常点进行训练,得到对应的各有监督机器学习分类模型;
步骤S5:选取与待检测日志数据对应的有监督机器学习分类模型对所述待检测日志数据进行检测,得到日志异常检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1,具体包括:
步骤S1-1:对原始日志数据进行清洗,并保留日志正文和网元类型;
步骤S1-2:对清洗后的原始日志数据进行去参数化及合并处理得到参数泛化日志正文列表;
步骤S1-3:对所述参数泛化日志正文列表中的日志正文分组,并根据各组中各日志正文的长度确定各日志正文的日志模式;
步骤S1-4:根据相同日志模型的日志正文之间的编辑距离确定各日志模式的模板,并根据所述模板确定各日志模式的类型号,得到含有所述网元类型、日志模式类型号的第一日志数据集。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2,具体包括:
步骤S2-1:根据所述网元类型对所述第一日志数据集进行分组,得到各网元类型的第二日志数据集;
步骤S2-2:分别统计在第一预设时间段内各第二日志数据集中每个日志模式的出现次数,得到与所述各第二日志数据集对应的由日志模式类型号和出现次数构成的各特征集合。
4.根据权利要求3所述的方法,其特征在于,所述步骤S3,具体包括:
步骤S3-1:根据无监督异常点发现算法,分别对各第二日志数据集进行训练得到对应的各日志异常点集合;
步骤S3-2:根据历史操作指令集,并结合领域知识构建异常操作指令集;
步骤S3-3:根据所述异常操作指令集,分别对所述各日志异常点集合进行验证,得到各日志异常点集合中各日志异常点的类型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S4,具体包括:
步骤S4-1:根据所述各特征集合和对应的各日志异常点集合构建对应的各异常点训练集;
步骤S4-2:根据随机森林算法,分别对所述各异常点训练集进行训练得到对应的各有监督机器学习分类模型。
6.一种自动化日志异常检测系统,其特征在于,包括:
预处理模块,用于对原始日志数据进行预处理得到第一日志数据集;
分组模块,用于对所述预处理模块得到的第一日志数据集进行分组得到多个第二日志数据集;
提取模块,用于对所述分组模块得到的各第二数据集进行特征提取得到对应的各特征集合;
异常点发现模块,用于根据无监督异常点发现算法及异常操作指令在所述分组模块得到的各第二日志数据集中发现对应的日志异常点;
训练模块,用于对所述提取模块得到的各特征集合和异常点发现模块发现的对应的日志异常点进行训练,得到对应的各有监督机器学习分类模型;
异常点检测模块,选取与待检测日志数据对应的有监督机器学习分类模型对所述待检测日志数据进行检测,得到日志异常检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亿阳信通科技有限公司,未经北京亿阳信通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910320115.1/1.html,转载请声明来源钻瓜专利网。