[发明专利]基于序列预测的日志异常检测方法及装置有效
| 申请号: | 202110534643.4 | 申请日: | 2021-05-17 |
| 公开(公告)号: | CN113434357B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 周江;宿林;李波;王伟平 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F16/18;G06F40/216 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈美章 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 序列 预测 日志 异常 检测 方法 装置 | ||
本发明公开了一种基于序列预测的日志异常检测方法及装置,包括:解析待检测日志序列,得到待检测日志键序列;将待检测日志键序列输入日志异常检测模型,获取日志异常检测结果。本发明通过基于语义的预处理模块构造了日志键的嵌入向量,从周围序列学习目标信息的特性,从而可以保留更多的语义特征,适用于规则多、规模大的平台日志数据,获取更高的检测精度,提高了模型的训练效率。
技术领域
本发明涉及计算机软件领域,具体涉及一种基于序列预测的日志异常检测方法及装置。
背景技术
随着互联网技术的高速发展,现代系统的规模和复杂性不断增加,平台的运维数据急剧增加,这使得人工检测方式变得不可行。而这些大数据平台或系统往往提供在线服务,一旦遭受攻击或者发生故障,会导致应用崩溃,并带来巨大的经济损失。因此,充分利用海量运维数据中的有价值信息,来分析并及时发现系统中的异常情况,具有重要意义。现有的基于日志的异常检测方法主要包括如下阶段:日志收集、日志解析、特征提取和异常检测。
传统的日志异常检测较大程度依赖人工,开发人员根据他们的领域知识手动检查系统日志或编写规则来检测异常。随着机器学习技术的不断发展,基于机器学习进日志审计方法得到了广泛研究。例如,中国专利(申请号:CN201910698395.X,公开号:CN110381079A)利用主成分分析对日志数据进行降维;然后利用处理过的训练数据集用来训练基于GRU的分类器模型;最后,将要检测的实际日志输入到GRU-SVDD比较器,检测出日志中的异常。
日志数据可以被解析为固定和可变两部分,称之为日志键和对应参数。传统的基于机器学习的检测方式无法学习到日志键之间和日志参数之间的关联,事实上在诸多平台的日志数据上,这种关联性是大量存在的,一些研究工作尝试通过挖掘日志参数之间的关系,来实现日志异常检测。例如,中国专利(申请号:CN202010880971.5,公开号:CN112069787A)将日志中的所有参数解析出来,将离散参数转换为连续的参数词向量,并使用长短期记忆神经网络模型训练参数词向量,使用训练完成的参数词向量预测后续目标时刻的参数词向量。在检测阶段,计算预测参数和目标参数的余弦相似度,余弦相似度低于阈值则为检测到日志参数异常。
由于传统的工业界的日志异常检测系统较大程度依赖人力,但在实际的生产应用中,由于平台的复杂性,每个开发人员都只负责某一模块,从海量日志数据中发现异常是困难的。
基于LSTM的日志异常检测,借助了循环神经网络在处理序列问题上的表达能力,在自动化日志审计上取得了不错的效果。这类方法的关键在于序列预测,即通过目标的前文信息预测当前时间步的日志,但这种方式忽略了目标对后文信息的依赖。此外,这类方法只关注对日志序列关系的学习,没有考虑日志键之间存在的大量关联性,这就导致对日志键相似关系的挖掘不够充分,使得模型迁移能力存在很大的局限性,例如在规则较为复杂的日志数据上表现不佳。
发明内容
针对现有日志异常检测方法的不足,本发明提出一种基于序列预测的日志异常检测方法及装置。该方法通过学习目标日志和周围语境的依赖关系,能够同时考虑前文和后文的信息,序列挖掘更加充分;通过基于语义的预处理模块,将日志键转化为密集的嵌入向量,充分学习模板间的相似关系,从而更好地适应复杂数据集。同时,该方法提出基于注意力机制,能够在一定程度上降低循环神经网络的序列式推进带来的时间开销,提升模型的运行效率,这对实际生产中需要应对海量日志数据的检测系统而言是十分关键的。
为达到上述目的,本发明的技术方案包括:
一种基于序列预测的日志异常检测方法,其步骤包括:
1)解析待检测日志序列,得到待检测日志键序列;
2)将待检测日志键序列输入日志异常检测模型,获取日志异常检测结果;
其中,通过以下步骤得到日志异常检测模型:
a)解析若干正常日志数据序列,得到若干正常日志键序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534643.4/2.html,转载请声明来源钻瓜专利网。





